Aide à la programmation, réponses aux questions / Robot d'indexation / webcrawler analyse des pages trouvées - web-crawler

analyse de webcrawler des pages trouvées - web-crawler

J'ai écrit un simle webcrawler. Je suis allé chercher tous les sites Web mais je ne les ai pas trouvés sur mon disque dur. Maintenant, je veux les analyser pour pouvoir écrire une interface simple comme www.google.de et rechercher des informations dans mes pages extraites.

le problème est de savoir comment trouver l'importanceinformations de manière "rapide". le calcul est donc important. ce pourrait être en temps réel ou après le fetch. mon idée est d'écrire un dictonaire avec une liste de mots anglais et de compter les entrées ... ou quoi faire? J'ai besoin de cours pour extraire des informations et les compresser. mais je ne sais pas où regarder.

le robot est basé sur c ++ avec mysql où les liens sont stockés.

J'espère que ma question est claire. :RÉ

btw sry pour mon mauvais anglais mais il y a un tableau comme celui-ci en allemand: P

Réponses:

1 pour la réponse № 1

La science de la recherche d'information (IR) est complexe.

Avez-vous examiné l'un des textes standard? Comme:

Introduction à la recherche d'information par Christopher D. Manning, Prabhakar Raghavan et Hinrich Schütze (7 juil. 2008) - http://www.amazon.com/Introduction-Information-Retrieval-Christopher-Manning/dp/0521865719/ref=sr_1_1?s=books&ie=UTF8&qid=1305573574&sr=1-1

Recherche d'informations: mise en œuvre et évaluation de moteurs de recherche par Stefan Büttcher, Charles L. Clarke et Gordon V. Cormack (23 juillet 2010) - http://www.amazon.com/Information-Retrieval-Implementing-Evaluating-Engines/dp/0262026511/ref=sr_1_3?s=books&ie=UTF8&qid=1305573574&sr=1-3

Recherchez "recherche d'informations" sur Amazon pour plus d'informations.

Vous pouvez également consulter ma réponse à Question de conception pour le système de notification qui décrit une architecture générale pour spidering sites pour la recherche.