/ / crawler vs scraper - web-crawler, terminologia, skrobak

crawler vs scraper - robot sieciowy, terminologia, skrobaczka

Czy ktoś może odróżnić robota od zgarniacza pod względem zakresu i funkcjonalności.

Odpowiedzi:

71 dla odpowiedzi № 1

Robot pobiera strony internetowe - tzn., podając adres początkowy (lub zestaw adresów początkowych) i pewne warunki (np. ile linków jest głęboko, rodzaje plików, które należy zignorować) pobiera cokolwiek, co jest powiązane z punktem (-ami) początkowym.

Skrobak pobiera strony, które zostały pobrane[Edytuj: lub, w bardziej ogólnym znaczeniu, dane, które są „sformatowane do wyświetlenia] i (próby) wyodrębnienia danych z tych stron, tak aby mogły (na przykład) być przechowywane w bazie danych i manipulowane według potrzeb.

W zależności od tego, jak wykorzystasz wynik, skrobanie możedobrze naruszają prawa właściciela informacji i / lub umów użytkownika dotyczących korzystania ze stron internetowych (w niektórych przypadkach indeksowanie narusza te ostatnie). Edytuj: jak wspomniał Steven Sudit, wiele stron zawiera plik o nazwie robots.txt w ich katalogu głównym (tzn. o adresie URL http://server/robots.txt), aby określić, w jaki sposób (i czy) roboty mają się zająćta witryna - w szczególności może wyświetlać (częściowe) adresy URL, których robot indeksujący nie powinien próbować odwiedzać. W razie potrzeby można je określić osobno dla każdego robota (agenta użytkownika).


3 dla odpowiedzi № 2

Roboty surfują po sieci, korzystając z linków. Przykładem może być robot Google, który pobiera strony do indeksu. Skrobaki pobierają wartości z formularzy, ale nie muszą mieć nic wspólnego z siecią.


3 dla odpowiedzi nr 3

Przeszukiwacz sieci pobiera linki (adresy URL - strony) w logice i scrapper pobiera wartości (wyodrębniając) z HTML.

Jest tak wiele narzędzi do przeszukiwania sieci. Odwiedź stronę zobaczyć niektóre. Dowolny parser XML - HTML może być użyty do wyodrębnienia (złomowania) danych z przeszukiwanych stron. (Polecam Jsoup do parsowania i wyodrębniania danych)


0 dla odpowiedzi nr 4

Ogólnie roboty indeksujące podążałyby za linkami, aby dotrzeć do wielu stron, podczas gdy skrobaki są w pewnym sensie po prostu ściągające treści wyświetlane online i nie docierają do głębszych linków.

Najbardziej typowym robotem indeksującym są roboty Google, którepodążałby za linkami, aby dotrzeć do wszystkich stron internetowych na twojej stronie i indeksował zawartość, gdyby uznała to za użyteczne (dlatego potrzebujesz robots.txt, aby określić, których treści nie chcesz indeksować) taki rodzaj treści na swojej stronie internetowej, podczas gdy celem skrobaków jest po prostu pobieranie treści do użytku osobistego i nie miałoby to większego wpływu na innych.

Nie ma jednak wyraźnej różnicyroboty indeksujące i skrobaki teraz, ponieważ niektóre zautomatyzowane narzędzia do skrobania stron internetowych pozwalają również na przeszukiwanie witryny, korzystając z łączy, takich jak Octoparse i import.io. Nie są to roboty indeksujące, takie jak roboty Google, ale są w stanie automatycznie indeksować witryny, aby uzyskać wiele danych bez kodowania.