/ / Nutch 1.12 та elastsearch 1.4.1 необхідна продуктивність - продуктивність, еластичний пошук, веб-сканер, гайка

Nutch 1.12 і elasticsearch 1.4.1 потреба в продуктивності - продуктивність, еластичні пошуки, веб-гусеничні, лайчч

Я новачок у використанні Nutch, і я хочу сканувати весь список насіння, який у мене є.

По-перше: я використав сценарій: bin / crawl -i -D elastika.server.url =http://localhost:9200/index_name/ URL-адреси ksu_Crawldb / 30

з: 2 процесором та 7,5 ГБ пам'яті

Але через 2 дні він лише витягує 63500 документа, а процесор був узятий лише на 50%, і не на повний час.

введіть опис зображення тут

Хочу знати, як отримати максимум документів за короткий час.

По-друге: в чому різниця між topN, глибиною та кругами?

Дякую за будь-яку допомогу.

Відповіді:

1 для відповіді № 1

Нещодавно я опублікував деякі тести на Nutch з поясненням, чому саме ресурсине використовуються максимум постійно. В основному, Apache Nutch базується на Hadoop і як такий працює на основі партії: різні операції проводяться послідовно. Дивись також це питання та запитання.

There are various ways in which the performance can be tuned but the key element is simply the diversity of hosts you are fetching from and the politeness settings.

По-друге: в чому різниця між topN, глибиною та кругами?

topN is the number of URLs to select for fetching based on their score depth is the number of outlinks from the seeds to get to a particular URL rounds is the number of iterations of fetching/parse/update

depth and round are often the same but not necessarily