/ / Erreur Nutch Aucun agent répertorié dans 'http.agent.name' - apache, web-crawler, nutch

Error Nutch Aucun agent répertorié dans 'http.agent.name' - apache, web-crawler, nutch

J'utilise Nutch2.2.1. Le fichier journal génère l'erreur suivante

ERREUR protocol.RobotRulesParser - Agent annoncé (nutch-spider-2.2.1) non répertorié en premier dans la propriété "http.robots.agents"!

Mon nutch-site.xml est (pour la propriété ci-dessus)

<property>
<name>http.agent.name</name>
<value>nutch-spider-2.2.1</value>
</property>

mon nutch-default.xml est

<property>
<name>http.agent.name</name>
<value></value>
</property>

Où est le problème actuel? S'il vous plaît guidez-le clairement (explication appropriée). Cette question est postée ici mais je dois récompenser cette question (si nécessaire), c’est pourquoi il faut la poster à nouveau.

Réponses:

3 pour la réponse № 1

Vous devez ajouter la propriété de "http.robots.agents" et placer la valeur de http.agent.name en tant que premier nom d'agent, en conservant la valeur par défaut * à la fin de la liste.just, comme suit:

<property>
<name>http.robots.agents</name>
<value>nutch-spider-2.2.1,*</value>
</property>