/ / webcrawler analizuje znalezione strony - robot indeksujący

webcrawler analizuje znalezione strony - robota sieciowego

napisałem prosty webcrawler. ściągnąłem wszystkie strony internetowe, ale na dysku twardym. teraz chcę je przeanalizować, aby móc napisać prosty interfejs, taki jak www.google.de i wyszukać informacje na pobranych stronach.

Problem polega na tym, jak dowiedzieć się, co jest ważneinformacje w „szybki” sposób. więc obliczenia są ważne. może to być w czasie rzeczywistym lub po pobraniu. moim pomysłem jest napisanie słownika z listą angielskich słów i policzenie wpisów ... lub co robić? Potrzebuję wykładu, jak wydobyć informacje i je skompresować. ale nie wiem gdzie szukać.

przeszukiwacz oparty jest na c ++ z mysql, w którym przechowywane są linki.

mam nadzieję, że moje pytanie jest jasne. :RE

btw sry za mój zły angielski, ale istnieje taka tablica w języku niemieckim: P

Odpowiedzi:

1 dla odpowiedzi № 1

Nauka wyszukiwania informacji (IR) jest skomplikowana.

Czy przeglądałeś jakieś standardowe teksty? Lubić:

Wprowadzenie do wyszukiwania informacji przez Christophera D. Manninga, Prabhakara Raghavana i Hinricha Schütze (7 lipca 2008 r.) - http://www.amazon.com/Introduction-Information-Retrieval-Christopher-Manning/dp/0521865719/ref=sr_1_1?s=books&ie=UTF8&qid=1305573574&sr=1-1

Wyszukiwanie informacji: wdrażanie i ocena wyszukiwarek: Stefan Büttcher, Charles L. A. Clarke i Gordon V. Cormack (23 lipca 2010) - http://www.amazon.com/Information-Retrieval-Implementing-Evaluating-Engines/dp/0262026511/ref=sr_1_3?s=books&ie=UTF8&qid=1305573574&sr=1-3

Wyszukaj „wyszukiwanie informacji” w serwisie Amazon, aby uzyskać więcej.

Możesz także rzucić okiem na moją odpowiedź na Pytanie projektowe dla systemu powiadomień który przedstawia ogólną architekturę pajęczych stron internetowych do wyszukiwania.