Čítam cez kapitolu o nutch v hadoope,definitívny sprievodca. Rozumiem konceptu zaradenia stránky pomocou inverzného odkazu. Nevidím však, že hrať úlohu, keď chcete len prehľadávať niekoľko stránok. Od vytvorenia linkdb je mapa redukovať prácu, je to povinná zaberať veľa výpočtových zdrojov. Ja som len premýšľal, prečo je linkdb vždy generované, keď väčšina prípadov použitia nutch je len dostať webový obsah pre určené adresy URL.
odpovede:
1 pre odpoveď č. 1To preto, že Nutch používa page rank (ktorýsa vypočítava pomocou informácií o prepojení) na určenie priority prehľadávania. Napríklad odkaz, ktorý má vysokú hodnosť stránky, bude prehľadávaný skôr, než ten, ktorý má nízku hodnosť stránky.
Nutch bol navrhnutý na použitie vo veľkom meradlewebový prehľadávač, teda výpočet stránky Rank a hodnotenie webových stránok s ním bol a stále je dôležitou súčasťou. Ak prehľadávate niekoľko stránok, pravdepodobne by ste mali použiť scrappy (knižnicu python).
Dúfam, že odpovie na vašu otázku.