/ / Error Nutch No hay agentes listados en 'http.agent.name' - apache, web-crawler, nutch

Error Nutch No hay agentes listados en 'http.agent.name' - apache, web-crawler, nutch

Estoy usando nutch2.2.1. El archivo de registro está generando el siguiente error

ERROR protocol.RobotRulesParser - ¡El agente que anunciamos (nutch-spider-2.2.1) no figura primero en la propiedad "http.robots.agents"!

Mi nutch-site.xml es (para la propiedad anterior)

<property>
<name>http.agent.name</name>
<value>nutch-spider-2.2.1</value>
</property>

mi nutch-default.xml es

<property>
<name>http.agent.name</name>
<value></value>
</property>

¿Dónde está el problema real? Guíelo claramente (explicación adecuada). Esta pregunta esta publicada aquí pero tengo que recompensar esta pregunta (si es necesario) por eso es que volver a publicarla.

Respuestas

3 para la respuesta № 1

Debe agregar la propiedad de "http.robots.agents" y poner el valor de http.agent.name como el primer nombre del agente, y mantener el valor predeterminado * al final de la lista. Simplemente como:

<property>
<name>http.robots.agents</name>
<value>nutch-spider-2.2.1,*</value>
</property>