/ / Як обмежити Apache Nutch 2.3.1 для сканування вмісту історії, а не бічних барів - apache, hadoop, web-crawler, sitemap, nutch

Як обмежити Apache Nutch 2.3.1 для сканування вмісту сюжету, а не бічних панелей - apache, hasoop, веб-сканер, sitemap, nutch

Я повинен сканувати деякі новинні сайти. У мене є установки apache Nutch 2.3.1 з Hadoop 2.7.4 і Hbase кластера. Я повинен забезпечити пошук за допомогою solr 6.6.1. Після сканування деяких веб-сайтів, я помітив, що Nutch повзає все на сторінці. У новинних веб-сайтах є бічні панелі, які містять останні або найпопулярніші новини тощо. Чи є будь-який спосіб попросити Nutch повзати основний зміст історії і уникнути таких бічних барів.

Відповіді:

1 для відповіді № 1

Ну, оскільки ви використовуєте Nutch 2.х це трохи важко, для Nutch 1.x можна використовувати реалізацію boilerpipe, яка доступна на Tika.