/ / Webcrawler Analyse der gefundenen Seiten - Web-Crawler

Webcrawler Analyse der gefundenen Seiten - Web-Crawler

Ich schrieb einen simle webcrawler. Ich habe alle Websites geholt und sie auf meiner Festplatte. jetzt möchte ich sie analysieren, damit ich eine einfache schnittstelle wie www.google.de schreiben und in meinen geholten seiten nach informationen suchen kann.

Das Problem ist, wie man das Wichtige herausfinden kannInformationen auf "schnelle" Weise. also ist die Berechnung wichtig. Es könnte in Echtzeit oder nach dem Abruf sein. Meine Idee ist, ein Dikton mit einer Liste englischer Wörter zu schreiben und die Einträge zu zählen ... oder was zu tun ist? Ich brauche Vorlesung, wie man Informationen extrahiert und komprimiert. aber ich weiß nicht, wo ich hinschauen soll.

Der Crawler basiert auf C ++ mit MySQL, wo die Links gespeichert sind.

Ich hoffe meine Frage ist klar. : D

btw sry für mein schlechtes Englisch, aber es gibt ein solches Board in Deutsch: P

Antworten:

1 für die Antwort № 1

Die Wissenschaft des Information Retrieval (IR) ist kompliziert.

Haben Sie sich die Standardtexte angesehen? Mögen:

Einführung in das Information Retrieval von Christopher D. Manning, Prabhakar Raghavan und Hinrich Schütze (07.07.2008) - http://www.amazon.com/Introduction-Information-Retrieval-Christopher-Manning/dp/0521865719/ref=sr_1_1?s=books&ie=UTF8&qid=1305573574&sr=1-1

Information Retrieval: Implementierung und Auswertung von Suchmaschinen von Stefan Büttcher, Charles L. A. Clarke und Gordon V. Cormack (23.07.2010) - http://www.amazon.com/Information-Retrieval-Implementing-Evaluating-Engines/dp/0262026511/ref=sr_1_3?s=books&ie=UTF8&qid=1305573574&sr=1-3

Suchen Sie nach "Information Retrieval" auf Amazon für mehr.

Vielleicht siehst du auch meine Antwort auf Designfrage für das Benachrichtigungssystem die eine allgemeine Architektur für spidering Websites für die Suche skizziert.