/ / Come limitare Apache Nutch 2.3.1 per eseguire la scansione del contenuto della storia e non delle barre laterali: apache, hasdoop, web-crawler, sitemap, nutch

Come limitare Apache Nutch 2.3.1 per eseguire la scansione del contenuto della storia e non delle barre laterali: apache, hasdoop, web-crawler, sitemap, nutch

Devo eseguire la scansione di alcuni siti Web di notizie. Ho installato l'apache Nutch 2.3.1 con Hadoop 2.7.4 e il cluster Hbase. Devo fornire la ricerca tramite solr 6.6.1. Dopo aver analizzato alcuni siti Web, ho osservato che Nutch esegue la scansione di tutto in una pagina. Nei siti di notizie, ci sono barre laterali che contengono notizie più recenti o migliori ecc. Questi contenuti della barra laterale sono cambiati nel tempo. C'è un modo per chiedere a Nutch di gattonare il contenuto della storia principale ed evitare quelle battute laterali.

risposte:

1 per risposta № 1

Bene, visto che stai usando Nutch 2.x questo è un po 'difficile, per Nutch 1.x è possibile utilizzare l'implementazione di boilerpipe che è disponibile su Tika, ma sfortunatamente non è ancora stata trasferita sul ramo 2.x.