プログラミングの助け、質問への回答 / Webクローラ / webcrawler見つかったページを分析 - web-crawler

Webcrawlerは見つかったページを分析します - web-crawler

私はシンプルなウェブクローラを書きました。私はすべてのWebサイトを取得しましたが、それらは私のHDDに表示されます。今それらを分析したいので、www.google.deのような単純なインターフェースを書いて私の取得したページで情報を検索することができます。

問題は重要なものを見つける方法です「速い」方法で情報をだから計算は重要です。それはリアルタイムでもフェッチ後でもかまいません。私の考えは、英語の単語のリストを載せた辞書を書き、エントリーを数えることです。情報を抽出して圧縮する方法を講義する必要があります。しかし、私はどこを見ればいいのかわからない。

クローラはリンクが格納されているmysqlのc ++に基づいています。

私の質問がはっきりしていることを願っています。：D

ところで私の悪い英語のために叫ぶが、ドイツ語でこのようなボードがあるistnがある：P

回答：

回答№1は1

情報検索（IR）の科学は複雑なものです。

標準的なテキストを見ましたか？好きです：

Christopher D. Manning、Prabhakar Raghavan、HinrichSchützeによる情報検索の紹介（2008年7月7日） - http://www.amazon.com/Introduction-Information-Retrieval-Christopher-Manning/dp/0521865719/ref=sr_1_1?s=books&ie=UTF8&qid=1305573574&sr=1-1

情報検索：StefanBüttcher、Charles L. A. Clarke、Gordon V. Cormackによる検索エンジンの実装と評価（2010年7月23日） - http://www.amazon.com/Information-Retrieval-Implementing-Evaluating-Engines/dp/0262026511/ref=sr_1_3?s=books&ie=UTF8&qid=1305573574&sr=1-3

Amazonで「情報検索」を検索してください。

あなたはまた私の答えを見てみるかもしれません通知システムの設計質問これは検索のためにWebサイトをスパイダーするための一般的なアーキテクチャを概説しています。

関連する質問

リンクツリーを構築するクローラは、Webサイト、ツリー、ハイパーリンク、Webクローラなどの単一のWebサイトを形成します

Webクローラーhttp要求の適切なエチケット - Webクローラー、エチケット

クローラ対スクレーパ - ウェブクローラ、用語、スクレーパ

特定のフィールド値が一意でない場合、rabbitmqドロップメッセージ？ - rabbitmq、amqp

治療法：レスポンスのないURLをスキップする方法は？ - python-2.7、scrapy

WebTestCase：クローラを使用して文字列をテストする - PHP、テスト、symfony、機能テスト、web-crawler

PHPクローラ - JSESSIONIDでURLに取り組む方法 - php、url、web-crawler、jsessionid

Node.jsクローラエラー - node.js、web-crawler、npm

クローラに分散データベースを使用できますか？ - mysql、データベース、分散

slf4j + log4j問題 - log4j、slf4j

オーバーライドアノテーションを使用できないのはなぜですか？ - java、継承、サブクラス、スーパークラス、メソッドオーバーライド

Googleが自分のサイトをクロールするようにユーザーエージェントを除外する - java、cookies、google-crawlers

Java戻り値の型はWebCrawler.visit（Page）と互換性がありません - java、web-crawler、crawler4j、incompatibletypeerror

どのユーザーエージェントを使用すべきですか？ - java、検索エンジン、Webクローラー

このWebクローラーは、幅優先探索または深さ優先探索を行っていますか？ - java、web-crawler、幅優先検索、深さ優先検索

バイナリファイルの解析中にエラーが発生しました - java、pdfbox、apache-tika

特定のドメインに行う必要のある同時接続数/ HTTP要求の最大数は何秒ですか？ - http、web、接続、web-crawler、httprequest

「Travelocity」のようなウェブサイトはどのように機能しますか？ [閉じる] - html、アルゴリズム、ウェブサイト、ウェブクローラー

c＃Webベースのクローラ - c＃、web-crawler、bots、googlebot

Webクローラ - オブジェクトが見つかりません[重複] - c＃、asp.net、web-crawler、html-agility-pack