/ / Warum verwenden große Websites wie cnn robots.txt und nicht besser htaccess? - .zugriff

Warum verwenden große Websites wie cnn robots.txt und nicht besser htaccess? - .htaccess

Meiner Meinung nach ist das nicht klug.

z.B. Überprüfen Sie dies:

http://edition.cnn.com/robots.txt
http://www.bbc.co.uk/robots.txt
http://www.guardian.co.uk/robots.txt

entsprechend davon:

http://www.joomla.org/robots.txt

Joomla.org hat den Standardverwaltungsordner nicht geändert: D

Z.B. Die Seite "prestashp" enthält eine leere robots.txt-Datei, die zwar nicht perfekt ist, aber meiner Meinung nach zumindest besser ist:

http://www.prestashop.com/robots.txt

Sind diese Leute dumm oder glauben sie, dass es in Ordnung ist zu wissen, wie sie die Webstruktur aussehen?

Warum verwenden sie nicht htaccess, um den Zugriff für Roboter usw. zu verweigern?

Antworten:

1 für die Antwort № 1

Das Problem ist, dass .htaccess Ich kann nicht intuitiv sagen, dass ein Besucher ein Suchmaschinen-Bot ist.

Die meisten Bots identifizieren sich in der User-Agent-Zeichenfolge, einige jedoch nicht.

Auf Robots.txt wird von allen Bots zugegriffen, die die Site indizieren möchten, und skrupellose Bots werden nicht verwendet

  1. Identifizieren Sie sich als Bot
  2. Achten Sie auf robots.txt (oder sie werden es absichtlich missachten).