/ / Cómo restringir Apache Nutch 2.3.1 para rastrear el contenido de la historia y no las barras laterales - apache, hadoop, rastreador web, sitemap, nutch

Cómo restringir Apache Nutch 2.3.1 para rastrear el contenido de la historia y no las barras laterales: apache, hadoop, web crawler, sitemap, nutch

Tengo que rastrear algunos sitios web de noticias. He configurado Apache Nutch 2.3.1 con Hadoop 2.7.4 y Hbase cluster. Tengo que proporcionar la búsqueda a través de solr 6.6.1. Después de rastrear algunos sitios web, he observado que Nutch rastrea todo en una página. En los sitios web de noticias, hay barras laterales que contienen noticias recientes o principales, etc. El contenido de esta barra lateral cambió con el tiempo. ¿Hay alguna manera de pedirle a Nutch que rastree el contenido de la historia principal y evite esas barras laterales?

Respuestas

1 para la respuesta № 1

Bueno, ya que estás usando Nutch 2.x esto es un poco difícil, para Nutch 1.x podría usar la implementación de boilerpipe que está disponible en Tika. Pero, desafortunadamente, todavía no está portada a la rama 2.x.