/ / Errore Nutch Nessun agente elencato in "http.agent.name" - apache, web-crawler, nutch

Errore Nutch Nessun agente elencato in "http.agent.name" - apache, web-crawler, nutch

Sto usando nutch2.2.1. Il file di registro genera il seguente errore

Protocollo ERROR.RobotRulesParser - Agente che pubblicizziamo (nutch-spider-2.2.1) non elencato per primo nella proprietà "http.robots.agents"!

Il mio sito nutch-site.xml è (per proprietà sopra)

<property>
<name>http.agent.name</name>
<value>nutch-spider-2.2.1</value>
</property>

il mio nutch-default.xml lo è

<property>
<name>http.agent.name</name>
<value></value>
</property>

Dov'è il problema attuale? Si prega di guidarlo chiaramente (spiegazione adeguata). Questa domanda è pubblicata Qui ma devo togliermi questa domanda (se necessario) che è il motivo per cui pubblicarla di nuovo.

risposte:

3 per risposta № 1

Devi aggiungere la proprietà di "http.robots.agents" e inserire il valore di http.agent.name come primo nome dell'agent, e mantenere il valore predefinito * alla fine dell'elenco. Proprio come:

<property>
<name>http.robots.agents</name>
<value>nutch-spider-2.2.1,*</value>
</property>