/ / webcrawler見つかったページを分析 - web-crawler

Webcrawlerは見つかったページを分析します - web-crawler

私はシンプルなウェブクローラを書きました。 私はすべてのWebサイトを取得しましたが、それらは私のHDDに表示されます。 今それらを分析したいので、www.google.deのような単純なインターフェースを書いて私の取得したページで情報を検索することができます。

問題は重要なものを見つける方法です「速い」方法で情報をだから計算は重要です。それはリアルタイムでもフェッチ後でもかまいません。私の考えは、英語の単語のリストを載せた辞書を書き、エントリーを数えることです。情報を抽出して圧縮する方法を講義する必要があります。しかし、私はどこを見ればいいのかわからない。

クローラはリンクが格納されているmysqlのc ++に基づいています。

私の質問がはっきりしていることを願っています。 :D

ところで私の悪い英語のために叫ぶが、ドイツ語でこのようなボードがあるistnがある:P

回答:

回答№1は1

情報検索(IR)の科学は複雑なものです。

標準的なテキストを見ましたか?好きです:

Christopher D. Manning、Prabhakar Raghavan、HinrichSchützeによる情​​報検索の紹介(2008年7月7日) - http://www.amazon.com/Introduction-Information-Retrieval-Christopher-Manning/dp/0521865719/ref=sr_1_1?s=books&ie=UTF8&qid=1305573574&sr=1-1

情報検索:StefanBüttcher、Charles L. A. Clarke、Gordon V. Cormackによる検索エンジンの実装と評価(2010年7月23日) - http://www.amazon.com/Information-Retrieval-Implementing-Evaluating-Engines/dp/0262026511/ref=sr_1_3?s=books&ie=UTF8&qid=1305573574&sr=1-3

Amazonで「情報検索」を検索してください。

あなたはまた私の答えを見てみるかもしれません 通知システムの設計質問 これは検索のためにWebサイトをスパイダーするための一般的なアーキテクチャを概説しています。