J'utilise Nutch2.2.1. Le fichier journal génère l'erreur suivante
ERREUR protocol.RobotRulesParser - Agent annoncé (nutch-spider-2.2.1) non répertorié en premier dans la propriété "http.robots.agents"!
Mon nutch-site.xml est (pour la propriété ci-dessus)
<property>
<name>http.agent.name</name>
<value>nutch-spider-2.2.1</value>
</property>
mon nutch-default.xml est
<property>
<name>http.agent.name</name>
<value></value>
</property>
Où est le problème actuel? S'il vous plaît guidez-le clairement (explication appropriée). Cette question est postée ici mais je dois récompenser cette question (si nécessaire), c’est pourquoi il faut la poster à nouveau.
Réponses:
3 pour la réponse № 1Vous devez ajouter la propriété de "http.robots.agents" et placer la valeur de http.agent.name en tant que premier nom d'agent, en conservant la valeur par défaut * à la fin de la liste.just, comme suit:
<property>
<name>http.robots.agents</name>
<value>nutch-spider-2.2.1,*</value>
</property>