/ / Pourquoi les grands sites Web comme cnn utilisent-ils le fichier robots.txt et non le meilleur htaccess - .htaccess

Pourquoi les grands sites Web comme cnn utilisent-ils le fichier robots.txt et non le meilleur htaccess? - .htaccess

A mon avis ce n'est pas sage.

par exemple. vérifie ça:

http://edition.cnn.com/robots.txt
http://www.bbc.co.uk/robots.txt
http://www.guardian.co.uk/robots.txt

d'après ceci:

http://www.joomla.org/robots.txt

Joomla.org n'a pas changé le dossier d'administration par défaut: D

Par exemple. La page prestashp contient un fichier robots.txt vierge qui n’est pas parfait, mais au moins meilleur à mon avis:

http://www.prestashop.com/robots.txt

Ces personnes sont-elles stupides ou pensent-elles qu'il est correct de savoir à quoi ressemble leur structure Web?

Pourquoi n'utilisent-ils pas htaccess pour refuser l'accès aux robots, etc.?

Réponses:

1 pour la réponse № 1

Le problème est que .htaccess ne peut pas dire intuitivement qu'un visiteur est un moteur de recherche bot.

La plupart des robots s'identifieront dans la chaîne user-agent, mais d'autres ne le feront pas.

Robots.txt est accessible à tous les robots qui cherchent à indexer le site, et les robots sans scrupules ne vont pas

  1. S'identifier comme un bot
  2. Faites attention à robots.txt (ou ils désobéiront délibérément).