/ / Dlaczego duże strony internetowe, takie jak cnn, używają pliku robots.txt, a nie lepszego htaccess? - .htaccess

Dlaczego duże strony internetowe, takie jak cnn, używają pliku robots.txt, a nie lepszego htaccess? - .htaccess

Moim zdaniem nie jest to mądre.

na przykład Sprawdź to:

http://edition.cnn.com/robots.txt
http://www.bbc.co.uk/robots.txt
http://www.guardian.co.uk/robots.txt

zgodnie z tym:

http://www.joomla.org/robots.txt

Joomla.org nie zmieniło domyślnego folderu administracyjnego: D

Na przykład. Strona prestashp zawiera pusty plik robots.txt, który nie jest doskonały, ale co najmniej lepszy moim zdaniem:

http://www.prestashop.com/robots.txt

Czy ci ludzie są głupi, czy uważają, że dobrze jest wiedzieć, jak wyglądają sieciówki?

Dlaczego nie używają htaccess do odmawiania dostępu robotom itp.?

Odpowiedzi:

1 dla odpowiedzi № 1

Problemem jest .htaccess nie może intuicyjnie powiedzieć, że odwiedzający jest botem wyszukiwarki.

Większość botów będzie identyfikować się w łańcuchu użytkownika, ale niektóre z nich wygrywają.

Robots.txt jest dostępny dla wszystkich botów szukających indeksowania witryny, a pozbawione skrupułów boty nie będą

  1. Zidentyfikuj się jako bot
  2. Zwróć uwagę na plik robots.txt (lub celowo go nieposłusznie).