/ / prečo nutch vždy vytvoriť linkdb, aj keď to nie je potrebné pre načítanie obsahu? - nutch

prečo nutch vždy vytvára linkdb, aj keď to nie je potreba preberania obsahu? - orech

Čítam cez kapitolu o nutch v hadoope,definitívny sprievodca. Rozumiem konceptu zaradenia stránky pomocou inverzného odkazu. Nevidím však, že hrať úlohu, keď chcete len prehľadávať niekoľko stránok. Od vytvorenia linkdb je mapa redukovať prácu, je to povinná zaberať veľa výpočtových zdrojov. Ja som len premýšľal, prečo je linkdb vždy generované, keď väčšina prípadov použitia nutch je len dostať webový obsah pre určené adresy URL.

odpovede:

1 pre odpoveď č. 1

To preto, že Nutch používa page rank (ktorýsa vypočítava pomocou informácií o prepojení) na určenie priority prehľadávania. Napríklad odkaz, ktorý má vysokú hodnosť stránky, bude prehľadávaný skôr, než ten, ktorý má nízku hodnosť stránky.

Nutch bol navrhnutý na použitie vo veľkom meradlewebový prehľadávač, teda výpočet stránky Rank a hodnotenie webových stránok s ním bol a stále je dôležitou súčasťou. Ak prehľadávate niekoľko stránok, pravdepodobne by ste mali použiť scrappy (knižnicu python).

Dúfam, že odpovie na vašu otázku.