/ / Error Nutch V 'http.agent.name' nie sú uvedení žiadni agenti - apache, webový prehľadávač, nutch

Chyba Nutch Žiadne agenty uvedené v "http.agent.name" - apache, web-crawler, nutch

Používam nutch2.2.1. Súbor denníka generuje nasledujúcu chybu

Protokol ERROR.RobotRulesParser - agent, ktorého inzerujeme (nutch-spider-2.2.1), ktorý nie je uvedený na prvom mieste v majetku „http.robots.agents“!

Môj nutch-site.xml je (pre vyššie uvedené vlastníctvo)

<property>
<name>http.agent.name</name>
<value>nutch-spider-2.2.1</value>
</property>

môj nutch-default.xml je

<property>
<name>http.agent.name</name>
<value></value>
</property>

Kde je skutočný problém? Prosíme vás, aby ste ho jasne uviedli (správne vysvetlenie). Táto otázka je zverejnená tu ale musím túto odmenu vyplácať (ak je to potrebné), a preto ju treba zverejniť znova.

odpovede:

3 pre odpoveď č. 1

Mali by ste pridať vlastnosť „http.robots.agents“ a vložiť hodnotu http.agent.name ako meno prvého agenta a ponechať predvolenú hodnotu * na konci zoznamu. Len takto:

<property>
<name>http.robots.agents</name>
<value>nutch-spider-2.2.1,*</value>
</property>