Pomoc pri programovaní, odpovede na otázky / web / Ako webový prehľadávač objaví stránku? - web, web-crawler

Ako webový prehľadávač objaví stránku? - web, webový prehľadávač

Chápem, že webový prehľadávač môže použiť niektoré z nichsemená ako URL začať hľadať stránky rekurzívne, ale ako to zistiť, ako obsahovať len HTML bez odkazu na stránke a bez akejkoľvek inej stránky odkazujúce na to?

odpovede:

0 pre odpoveď č. 1

Existuje niekoľko spôsobov, ako roboty používajú na nájdenie stránky (aj zdroje väčšiny robotov sú dosť obmedzené, takže len tí najväčší si môžu dovoliť robiť všetko uvedené tu):

adresy URL v značkách html „a“
adresy URL uvedené v iných značkách, atribútoch značiek a texte
adresy URL uvedené v štýloch a javascript
Používatelia adries URL navštevujú webové prehliadače, ktoré ich odosielajú do vyhľadávacích nástrojov
rovnaké ako vyššie, ale prehliadače pluginy
odoslali súbory Sitemap
robots.txt
heuristiky (niektoré roboty sa snažia odvodiť adresy URL zo vzorov url, ktoré objavia na vašej stránke)
skripty spustené na stránke, napr. Ak stránka beží youtube alebo adsense skripty na sebe, bude Google vedieť Atď

Súvisiace otázky

Ako sa môžem vyhnúť indexovému prehľadávaniu adries URL, ktoré "robia" veci ako odhlásenie osoby z adresára - webový prehľadávač

Ako analyzovať dokument pomocou crawler4j - vyhľadávanie, web, crawler4j

Pásový prehľadávač Python na webovej stránke ajax (nastavenie modemu-smerovača) - python, ajax, beautifulsoup, web-crawler, urllib

WebTestCase: Použite prehľadávač na otestovanie reťazca - php, testovanie, symfony, testovanie funkcií, webový prehľadávač

PHP OOP: Ukladať metódy v databáze - php, oop, goutte

Symfony's DomCrawler nenájdete konkrétnu značku - php, symfony, domcrawler

php crawler - ako riešiť adresy URL pomocou JSESSIONID - php, url, web-crawler, jsessionid

Kedy by bol prehľadávač informovaný, že stránka je 404? - php, http-status-code-404, web-crawler

Je k dispozícii knižnica pre prehľadávače webu pre PHP alebo Ruby? [closed] - php, ruby, web-crawler

Chyba prehľadávača Node.js - node.js, web-crawler, npm

Ako sa prihlásiť do facebooku pomocou goutte in laravel - laravel-5.2, goutte

Selen Webdriver Webový prehľadávač - java, selen, selen-webdriver

Chyba pri vykonávaní Apache nutch-2.2.1 - java, apache, hadoop, nutch

Je možné objaviť pripojené disky z Java? - java, io, disk, webový prehľadávač, objav

Ako získať indiviual html súbor z "segmentov", ktoré som dostal po crwal v nutch? - java, linux, indexovanie, web-crawler, nutch

Aký je počet max. Súbežných pripojení / žiadostí HTTP za sekundu, ktoré by som mal vykonať v danej doméne? - http, web, pripojenie, webový prehľadávač, httprequest

c # prehľadávač na webe - c #, webový prehľadávač, roboty, googlebot

Webový prehľadávač - objekt nebol nájdený [duplikát] - c #, asp.net, webový prehľadávač, html-agility-pack

Apache Nutch prehľadávač, ako vylúčiť statické priečinky, ako je; cgi-bin, obrázky, css vylúčiť z orechového prehľadávača? apache, hadoop, lucene, mapreduce, nutch

Spúšťa sa prehľadávač Android Marketplace (adresár "hg"?) [Uzavretý] - android, verzia-control, mercury, web-crawler