/ / Як отримати indivisual html файл з «сегментів», які я отримав після crwal в nutch? - java, linux, індексація, веб-гусеничний, nutch

Як отримати індивідуальний html-файл з "сегментів", який я отримав після crwal в nutch? - java, linux, індексація, веб-сканер, nutch

Я новачок до нут.Я використав nutch для сканування деяких domain.Now мені потрібно, щоб отримати всі HTML-файл, що відповідає домену в окремій папці.Я отримав вихід з сканера як сканер / linkdb, сканер / crawldb і сканер / сегменти.Зараз допоможіть мені щоб перейти через командний рядок.

Відповіді:

0 для відповіді № 1

Виконайте таку команду:

bin/nutch readseg -dump <segmentDir> <outputDir>

і замінити segmentDir і outputDir на ваші сегменти і вихідні каталоги (без "<")