/ / Prečo veľké webové stránky ako cnn používajú súbor robots.txt a nie lepší htaccess? - .htaccess

Prečo veľké webové stránky ako cnn používajú súbor robots.txt a nie lepší htaccess? - .htaccess

Podľa môjho názoru nie je múdre.

napr. skontroluj to:

http://edition.cnn.com/robots.txt
http://www.bbc.co.uk/robots.txt
http://www.guardian.co.uk/robots.txt

podľa toho:

http://www.joomla.org/robots.txt

Joomla.org nezmenil predvolený priečinok pre správu: D

Napr. stránka prestashp obsahuje prázdny súbor robots.txt, ktorý nie je dokonalý, ale podľa môjho názoru aspoň lepší:

http://www.prestashop.com/robots.txt

Sú títo ľudia hlúpi alebo si myslia, že je v poriadku vedieť, ako vyzerá webová štruktúra?

Prečo nepoužívajú htaccess na odmietnutie prístupu robotom atď.?

odpovede:

1 pre odpoveď č. 1

Problém je, že .htaccess nedokážu intuitívne povedať, že návštevník je robot vyhľadávacieho nástroja.

Väčšina robotov sa identifikuje v reťazci user-agent, ale niektorí nevyhrajú.

Robots.txt je prístupný všetkým robotom, ktorí sa snažia indexovať web, a bezohľadní roboti sa nezúčastnia

  1. Identifikujte sa ako robot
  2. Venujte zvýšenú pozornosť súboru robots.txt (alebo ho úmyselne neposlúchajú).