Проблемът възниква в Nutch 1.9 с ubuntu 12.04. Опитвам се да обхождам връзките, които са на разположение в уебсайт. Дадох URL адреса на уебсайта в файла seed.txt, не направих никакви промени в конфигурацията по подразбиране освен http.agent.name (New) и db. max.outlinks.per.page (-1). Използвам следната команда за обхождане
crawl urls test -depth 3
Crawler трябва да обходи всички налични връзки в рамките на дълбочина 3. Но само 5 линка са достъпни, когато изпълнявам следната команда linkdb. Всичките пет линка са достъпни на началната страница
nutch readlinkdb test/linkdb -dump myoutput/out1<br/>
Изпуснах ли някакви конфигурационни промени? Моля, помогнете ми.
Отговори:
0 за отговор № 1Задайте броя на URL адресите, които да обхождате във всяко ниво, като използвате -topN
:
bin / nutch обхождане $ URLs -dir $ CRAWL_LOC -дълго 3 -topN 1000
0 за отговор № 2
В Nutch 1.10, db.ignore.internal.връзките по подразбиране са верни, което означава, че връзката db няма да съдържа вътрешни връзки, а само външни. Ако не сте променили настройката по подразбиране, връзката db няма да отразява степента на обхождане. Ако искате да съдържат тези връзки, можете да промените стойността на тази собственост на фалшива във вашия файл с настройки.
Ако искате да видите всички препратки, които са били обходени, изтрийте обхождащия файл db. В 1.10 това става чрез:
bin/nutch readdb MyCrawl/crawldb/ -dump crawlout
Не съм сигурен кои са разликите между 1.9 и 1.10, но си представям, че командите са подобни. (Бележките за изданието 1.10 не показват, че работата с вътрешните връзки се е променила).