/ / Ako sa dostať indivisual html súbor z "segmentov", ktoré som dostal po crwal v nutch? - java, linux, indexovanie, web-crawler, nutch

Ako získať indiviual html súbor z "segmentov", ktoré som dostal po crwal v nutch? - java, linux, indexovanie, web-crawler, nutch

Som nudný.Použil som nutch prechádzať niektoré domain.Now musím dostať všetky html súbor zodpovedajúce doméne v samostatnom folder.I dostal výstup z prehľadávača ako crawler / linkdb, crawler / crawldb a crawler / segmenty.Teraz mi prosím pomôžte prejsť cez príkazový riadok.

odpovede:

0 pre odpoveď č. 1

Vykonajte nasledujúci príkaz:

bin/nutch readseg -dump <segmentDir> <outputDir>

a nahraďte segmentDir a outputDir svojimi segmentovými a výstupnými adresármi (bez "<")