/ / Como restringir o Apache Nutch 2.3.1 para rastrear o conteúdo da história e não as barras laterais - apache, hadoop, web-crawler, sitemap, nutch

Como restringir o Apache Nutch 2.3.1 para rastrear conteúdo da história e não barras laterais - apache, hadoop, rastreador da Web, sitemap, nutch

Eu tenho que rastrear alguns sites de notícias. Eu configurei o apache Nutch 2.3.1 com o Hadoop 2.7.4 e o cluster Hbase. Eu tenho que fornecer pesquisa via solr 6.6.1. Depois de rastrear alguns sites, observei que Nutch rastreia tudo em uma página. Nos sites de notícias, existem barras laterais que contêm as notícias mais recentes ou principais, etc. Esse conteúdo da barra lateral foi alterado com o tempo. Existe alguma maneira de pedir a Nutch para rastrear o conteúdo da história principal e evitar essas barras laterais.

Respostas:

1 para resposta № 1

Bem, já que você está usando o Nutch 2.x isso é um pouco difícil, para o Nutch 1.x você pode usar a implementação de boilerpipe disponível no Tika. Mas, infelizmente, ele ainda não foi portado para o ramo 2.x.