/ / Как да се ограничи Apache Nutch 2.3.1 да обходи съдържание на историята, а не странични барове - apache, hadoop, web-crawler, sitemap, nutch

Как да ограничите Apache Nutch 2.3.1 да обходи съдържание за историята, а не странични барове - apache, hadoop, web-crawler, sitemap, nutch

Трябва да обходим някои новинарски уебсайтове. Имам настройка apache Nutch 2.3.1 с Hadoop 2.7.4 и Hbase клъстер. Трябва да предоставя търсене чрез solr 6.6.1. След като обходих някои уебсайтове, забелязах, че Nutch пълзи всичко на страница. В сайтовете за новини има странични ленти, които съдържат най-нови или най-нови новини и т.н. Тези страници на барабанното съдържание се променят с течение на времето. Има ли някакъв начин да помолите Нуч да пропълзи съдържанието на основната история и да избегне подобни странични редове.

Отговори:

1 за отговор № 1

Е, тъй като използвате Nutch 2.х това е малко трудно, за Nutch 1.x можете да използвате boilerpipe изпълнението, което е на разположение на Tika, но за съжаление, това не е пренесен към 2.x клон още.