/ / Nutch 1.12 e elasticsearch 1.4.1 necessidade de desempenho - performance, elasticsearch, web-crawler, nutch

Nutch 1.12 e elasticsearch 1.4.1 necessidade de desempenho - performance, elasticsearch, web-crawler, nutch

Eu sou novo em usar Nutch e quero rastrear a lista de sementes que eu tenho na entrada.

Primeiro: usei o script: bin / crawl -i -D elastic.server.url =http://localhost:9200/index_name/ urls ksu_Crawldb / 30

com: 2 CPU e 7,5 GB de memória

Mas depois de 2 dias, ele só conseguiu 63500 documento, e a CPU só foi tirada em 50% e não em tempo integral.

insira a descrição da imagem aqui

Eu quero saber, como buscar o máximo de documentos em pouco tempo.

Segundo: qual a diferença entre topN, profundidade e rounds?

Obrigado por qualquer ajuda.

Respostas:

1 para resposta № 1

Eu publiquei recentemente alguns benchmarks em Nutch com uma explicação de por que os recursosnão são usados ​​no máximo continuamente. Basicamente, o Apache Nutch é baseado no Hadoop e, como tal, é orientado por lotes: as diferentes operações são realizadas em sucessão. Veja também este Q & A.

Existem várias maneiras em que o desempenho pode ser ajustado, mas o elemento-chave é simplesmente a diversidade de hosts que você está buscando e as configurações de cortesia.

Segundo: qual a diferença entre topN, profundidade e rounds?

topN é o número de URLs a serem selecionados para buscarcom base na sua pontuação depth é o número de outlinks das sementes para chegar a um determinado URL rounds é o número de iterações de busca / análise / atualização

profundidade e volta são muitas vezes os mesmos, mas não necessariamente