/ / Škrabanie dát z celého webu [zatvorené] - web-scraping

Škrábanie údajov z celého webu [zatvorené] - škrabanie na webe

Musím vyvinúť nástroj na škrabanie, ktorý sa poškriabaproduktu (cena, titul, atď.) z celého webu, teraz mám skúsenosti so škrabaním, ale to je pre jednu webovú stránku, ale nie som si istý, ako môžem zoškrabať celý web. a potom poškriabať každú webovú stránku z odkazu v google. Je to dobrý prístup?

Potrebujem len všeobecný prístup, ako by ste to urobilivyriešiť tento problém, pretože, ako vidím, každá stránka môže mať svoj vlastný spôsob reprezentácie údajov. Ako môžem zahrnúť všetky tieto variácie? Akékoľvek pokyny / tipy?

odpovede:

1 pre odpoveď č. 1

Google má zabudovanú funkciu porovnávania cien na viacerých webových stránkach: http://www.google.co.uk/shopping

Môžete skúsiť dotazovať tento zdroj pomocougoogles vlastné vlastné API pre vyhľadávanie alebo curl, aj keď API je pravdepodobne lepšou voľbou ako google je notoricky zložité škrípať a pravdepodobne zamkne IP, ak si myslí, že sa používa curl skript alebo podobná je .. Alternatívou je vytiahnuť dáta off niekoho elses porovnanie stránky (y), ak myšlienka kódovania pre viac stránok ručne vás naplní strach.


1 pre odpoveď č. 2

Pojem, ktorý definuje, o čom hovoríte, je webový prehľadávač, Pozreli ste sa na článok wikipedia?

http://en.wikipedia.org/wiki/Web_crawler