nutch2.2.1を使用しています。ログファイルが次のエラーを生成しています
エラーprotocol.RobotRulesParser-アドバタイズするエージェント(nutch-spider-2.2.1)が「http.robots.agents」プロパティの最初にリストされていません!
私のnutch-site.xmlは(上記のプロパティ用)です
<property>
<name>http.agent.name</name>
<value>nutch-spider-2.2.1</value>
</property>
私のnutch-default.xmlは
<property>
<name>http.agent.name</name>
<value></value>
</property>
実際の問題はどこにありますか?明確に案内してください(適切に説明してください)。 この質問は投稿されています ここに しかし、この質問を(必要に応じて)賞賛する必要があります。それが再び投稿する理由です。
回答:
回答№1の場合は3「http.robots.agents」のプロパティを追加し、最初のエージェント名としてhttp.agent.nameの値を追加し、リストの最後にデフォルトの*を保持します:
<property>
<name>http.robots.agents</name>
<value>nutch-spider-2.2.1,*</value>
</property>