/ / Ako obmedziť Apache Nutch 2.3.1 na indexové prehľadávanie obsahu príbehu a nie na bočných pruhov - apache, hadoop, webový prehľadávač, mapa stránok, nutch

Ako obmedziť Apache Nutch 2.3.1 na prehľadávanie obsahu príbehu a nie bočných pruhov - apache, hadoop, web-crawler, sitemap, nutch

Musím prehľadávať niektoré spravodajské weby. Mám nastavenie apache Nutch 2.3.1 s Hadoop 2.7.4 a clusterom Hbase. Musím poskytnúť vyhľadávanie cez Solr 6.6.1. Po prechádzanie niektoré webové stránky, všimol som si, že Nutch liezť všetko v jednej stránke. Na spravodajských weboch existujú bočné panely, ktoré obsahujú najnovšie alebo najlepšie správy atď. Obsah bočného panela sa časom zmenil. Existuje nejaký spôsob, ako požiadať Nutch prechádzať hlavný obsah príbehu a vyhnúť sa týmto vedľajším bary.

odpovede:

1 pre odpoveď č. 1

Odkedy používate Nutch 2.x je to trochu ťažké, pre Nutch 1.x by ste mohli použiť implementáciu kotlovej rúry, ktorá je k dispozícii na Tike. Bohužiaľ, zatiaľ nie je portovaná do 2.x vetvy.