/ / Erro Nutch Nenhum agente listado em 'http.agent.name' - apache, web-crawler, nutch

Erro Nutch Nenhum agente listado em 'http.agent.name' - apache, web-crawler, nutch

Eu estou usando o nutch2.2.1. Arquivo de log está gerando o seguinte erro

ERROR protocol.RobotRulesParser - Agente que anunciamos (nutch-spider-2.2.1) não listado primeiro na propriedade "http.robots.agents"!

Meu nutch-site.xml é (para a propriedade acima)

<property>
<name>http.agent.name</name>
<value>nutch-spider-2.2.1</value>
</property>

my nutch-default.xml é

<property>
<name>http.agent.name</name>
<value></value>
</property>

Onde está o problema real? Por favor, guie-o claramente (explicação correta). Esta questão é postada Aqui mas eu tenho que recompensar essa pergunta (se necessário) por que postar de novo.

Respostas:

3 para resposta № 1

Você deve adicionar a propriedade "http.robots.agents" e colocar o valor de http.agent.name como o primeiro nome de agente e manter o padrão * no final da lista.

<property>
<name>http.robots.agents</name>
<value>nutch-spider-2.2.1,*</value>
</property>