/ / Perché i grandi siti web come cnn usano robots.txt e non sono meglio htaccess? - .htaccess

Perché i grandi siti web come cnn usano robots.txt e non meglio htaccess? - .htaccess

Secondo me non è saggio.

per esempio. verificare questo:

http://edition.cnn.com/robots.txt
http://www.bbc.co.uk/robots.txt
http://www.guardian.co.uk/robots.txt

secondo questo:

http://www.joomla.org/robots.txt

Joomla.org non ha modificato la cartella di amministrazione predefinita: D

Per esempio. La pagina prestashp ha un file robots.txt vuoto che non è perfetto, ma almeno migliore secondo me:

http://www.prestashop.com/robots.txt

Queste persone sono stupide o pensano che sia giusto sapere com'è la loro struttura web?

Perché non usano htaccess per negare l'accesso ai robot ecc.?

risposte:

1 per risposta № 1

Il problema è che .htaccess non può dire intuitivamente che un visitatore è un bot di un motore di ricerca.

La maggior parte dei robot si identificherà nella stringa user-agent, ma alcuni non vinceranno "t.

Robots.txt è accessibile da tutti i robot che cercano di indicizzare il sito e i robot senza scrupoli non hanno intenzione di

  1. Identificarsi come bot
  2. Presta attenzione a robots.txt (o lo disubbidiranno deliberatamente).