/ / Nutch обхожда само няколко връзки в даден домейн - уеб робот, гайка

Nutch обхожда само няколко връзки в даден домейн - уеб crawler, nutch

Проблемът възниква в Nutch 1.9 с ubuntu 12.04. Опитвам се да обхождам връзките, които са на разположение в уебсайт. Дадох URL адреса на уебсайта в файла seed.txt, не направих никакви промени в конфигурацията по подразбиране освен http.agent.name (New) и db. max.outlinks.per.page (-1). Използвам следната команда за обхождане
crawl urls test -depth 3
Crawler трябва да обходи всички налични връзки в рамките на дълбочина 3. Но само 5 линка са достъпни, когато изпълнявам следната команда linkdb. Всичките пет линка са достъпни на началната страница

nutch readlinkdb test/linkdb -dump myoutput/out1<br/>

Изпуснах ли някакви конфигурационни промени? Моля, помогнете ми.

Отговори:

0 за отговор № 1

Задайте броя на URL адресите, които да обхождате във всяко ниво, като използвате -topN:

bin / nutch обхождане $ URLs -dir $ CRAWL_LOC -дълго 3 -topN 1000


0 за отговор № 2

В Nutch 1.10, db.ignore.internal.връзките по подразбиране са верни, което означава, че връзката db няма да съдържа вътрешни връзки, а само външни. Ако не сте променили настройката по подразбиране, връзката db няма да отразява степента на обхождане. Ако искате да съдържат тези връзки, можете да промените стойността на тази собственост на фалшива във вашия файл с настройки.

Ако искате да видите всички препратки, които са били обходени, изтрийте обхождащия файл db. В 1.10 това става чрез:

bin/nutch readdb MyCrawl/crawldb/ -dump crawlout

Не съм сигурен кои са разликите между 1.9 и 1.10, но си представям, че командите са подобни. (Бележките за изданието 1.10 не показват, че работата с вътрешните връзки се е променила).