/ / Ako webový prehľadávač objaví stránku? - web, web-crawler

Ako webový prehľadávač objaví stránku? - web, webový prehľadávač

Chápem, že webový prehľadávač môže použiť niektoré z nichsemená ako URL začať hľadať stránky rekurzívne, ale ako to zistiť, ako obsahovať len HTML bez odkazu na stránke a bez akejkoľvek inej stránky odkazujúce na to?

odpovede:

0 pre odpoveď č. 1

Existuje niekoľko spôsobov, ako roboty používajú na nájdenie stránky (aj zdroje väčšiny robotov sú dosť obmedzené, takže len tí najväčší si môžu dovoliť robiť všetko uvedené tu):

  • adresy URL v značkách html „a“
  • adresy URL uvedené v iných značkách, atribútoch značiek a texte
  • adresy URL uvedené v štýloch a javascript
  • Používatelia adries URL navštevujú webové prehliadače, ktoré ich odosielajú do vyhľadávacích nástrojov
  • rovnaké ako vyššie, ale prehliadače pluginy
  • odoslali súbory Sitemap
  • robots.txt
  • heuristiky (niektoré roboty sa snažia odvodiť adresy URL zo vzorov url, ktoré objavia na vašej stránke)
  • skripty spustené na stránke, napr. Ak stránka beží youtube alebo adsense skripty na sebe, bude Google vedieť Atď