Pomoc pri programovaní, odpovede na otázky / Škrabanie webu / Škrabanie dát z celého webu [zatvorené] - web-scraping

Škrábanie údajov z celého webu [zatvorené] - škrabanie na webe

Musím vyvinúť nástroj na škrabanie, ktorý sa poškriabaproduktu (cena, titul, atď.) z celého webu, teraz mám skúsenosti so škrabaním, ale to je pre jednu webovú stránku, ale nie som si istý, ako môžem zoškrabať celý web. a potom poškriabať každú webovú stránku z odkazu v google. Je to dobrý prístup?

Potrebujem len všeobecný prístup, ako by ste to urobilivyriešiť tento problém, pretože, ako vidím, každá stránka môže mať svoj vlastný spôsob reprezentácie údajov. Ako môžem zahrnúť všetky tieto variácie? Akékoľvek pokyny / tipy?

odpovede:

1 pre odpoveď č. 1

Google má zabudovanú funkciu porovnávania cien na viacerých webových stránkach: http://www.google.co.uk/shopping

Môžete skúsiť dotazovať tento zdroj pomocougoogles vlastné vlastné API pre vyhľadávanie alebo curl, aj keď API je pravdepodobne lepšou voľbou ako google je notoricky zložité škrípať a pravdepodobne zamkne IP, ak si myslí, že sa používa curl skript alebo podobná je .. Alternatívou je vytiahnuť dáta off niekoho elses porovnanie stránky (y), ak myšlienka kódovania pre viac stránok ručne vás naplní strach.

1 pre odpoveď č. 2

Pojem, ktorý definuje, o čom hovoríte, je webový prehľadávač, Pozreli ste sa na článok wikipedia?

http://en.wikipedia.org/wiki/Web_crawler

Súvisiace otázky

Prihláste sa na webovú lokalitu a potom zozbierajte údaje pomocou nástroja Scraping Hub - škrabanie na webe, scrapy, scrapinghub

Škrabanie webových stránok pomocou služby Web-Harvest - škrabanie na webe, webharvest

Škrábanie správania používateľov na konkrétnej webovej stránke - škrabanie na webe

"Scraping" vs. "Scrapping": Existuje nejaký rozdiel? [closed] - škrabanie na webe, terminológia

Škrabanie webových stránok eCommerce na webe pomocou rozšírenia prehliadača Google Chrome - škrabanie na webe

Sťahovanie súboru na stiahnutie - skrátenie obrazovky

Screen-scraping a SQL databáza - screen-scraping

Ako zablokovať aktivity Watir ruby gem v lokalite? - rubín, škrabanie obrazovky, škrabanie na webe, watir, watir-webdriver

Škrábanie údajov s výnimkou html tagov - regex, škrabanie na webe, škrabanie na obrazovke

python škrabanie tým, že získa urls dynamický spôsob - python, web-crawler, web-scraping

Screen Scraping webovú stránku založenú na Javascripte v jazyku Python - python, skrátenie obrazovky, beautifulsoup, web-scraping

Škrabanie a ukladanie súborov html bez obrázkov v Python - python, škrabanie na webe

Aké aplikácie alebo knižnice sú k dispozícii na odstraňovanie obrazoviek aplikáciami v systéme Windows? - java, .net, škrabanie obrazovky, desktopová aplikácia

Will Jaunt web škrabka bude schopný škrabanie tejto stránky javascript - java, web-škrabanie

Škrabanie stránok s javascript screen delay [zatvorené] - javascript, python, screen-scraping, web-scraping, scraper

Optimálna konfigurácia na zamlčanie identity škrabania - hosting, skrytie obrazovky, IP-adresa, názov domény

Podávajte štepené HTML dáta ako API pomocou Django Rest Framework - django, rest, web-scraping, django-rest-framework

Škrábanie a publikovanie výsledkov na webových stránkach - automatizácia, škrabanie na webe

V asp.net ako na obrazovke oškrabovať viac záznamov pri stránkovaní je implementovaný pre výsledky? - asp.net, škrabanie na obrazovke

Časový problém s škrabaním webových stránok ASP.NET - asp.net, asp.net-mvc, časový limit, škrabanec obrazovky