/ / Aktualizujte Nutch a získajte rodiča každej získanej adresy URL - java, nutch

Aktualizujte Nutch na načítanie rodičov každej naviazanej adresy URL - java, nutch

Keď spustím prehľadávač Apache Nutch 1.4, chcem si uložiť ďalšie informácie. Chcem uložiť rodiča každej adresy URL.

Napríklad chcem indexovo prehľadávať stránku a.html, ktorá má 2 kotevné odkazy na b.html a c.html. Keď teda prehľadávam a.html, mala by som získať niečo podobné: -

a.html null
b.html a.html
c.html a.html

Chcem niečo také uložiť. Čítal som, ako nutch funguje, a tiež som v zatmení spustil nutch. Tiež som si prečítal stránku fetcher.java a prihlásil som sa, kde sa načítal obsah. Nedokázal som však vedieť, kde Nutch načíta detské adresy URL danej stránky. Myslím, že tento krok sa uskutoční po kroku analýzy.

odpovede:

2 pre odpoveď č. 1

Myslím si, že informácie je možné získať vygenerovaním odkazu link.

Databáza odkazov alebo linkdb: Obsahuje zoznam známych odkazov na každú adresu URL vrátane zdrojovej adresy URL a textu ukotvenia odkazu. Udržuje mapu obrátených odkazov so zoznamom prichádzajúcich odkazov pre každú webovú adresu.

bin/nutch invertlinks crawldb/linkdb -dir crawldb/segments

Vo fáze analýzy, matica vytvára outlinks zprehľadaný obsah a novo objavené adresy URL sa uložia na prehľadávanie vo fáze aktualizácie. Nové adresy URL sa načítajú v nasledujúcom cykle / kole prehľadávania orechov.