/ /エラーNutch「http.agent.name」にエージェントがリストされていません-Apache、Webクローラー、Nutch

エラーNutch 'http.agent.name'にリストされているエージェントはありません - apache、web-crawler、nutch

nutch2.2.1を使用しています。ログファイルが次のエラーを生成しています

エラーprotocol.RobotRulesParser-アドバタイズするエージェント(nutch-spider-2.2.1)が「http.robots.agents」プロパティの最初にリストされていません!

私のnutch-site.xmlは(上記のプロパティ用)です

<property>
<name>http.agent.name</name>
<value>nutch-spider-2.2.1</value>
</property>

私のnutch-default.xmlは

<property>
<name>http.agent.name</name>
<value></value>
</property>

実際の問題はどこにありますか?明確に案内してください(適切に説明してください)。 この質問は投稿されています ここに しかし、この質問を(必要に応じて)賞賛する必要があります。それが再び投稿する理由です。

回答:

回答№1の場合は3

「http.robots.agents」のプロパティを追加し、最初のエージェント名としてhttp.agent.nameの値を追加し、リストの最後にデフォルトの*を保持します:

<property>
<name>http.robots.agents</name>
<value>nutch-spider-2.2.1,*</value>
</property>