/ / É necessário o Solr indexar dados rastreados para o Nutch? - sol, lucene, nutch

O Solr é necessário para indexar dados rastreados para o Nutch? - sol, lucene, nutch

Descobri que o Nutch 1.4 contém apenas um indexador / solrindex. O Solr é o único caminho para o Nutch indexar os dados rastreados? Se não, quais são os outros caminhos?

Eu também estou querendo saber por que o Nutch 1.4 usa o Solr para indexar os dados. Por que não fazê-lo em si? Não aumenta o acoplamento desses dois projetos?

Respostas:

3 para resposta № 1

O Solr usa lucene internamente. Desde 2005, o nutch foi designado como um subprojeto da Lucene. Historicamente, o nutch usava índices de lucene e era ummotor de busca completo (isso foi até a versão 1.0). Ele tinha capacidade de rastreamento e até mesmo suporte para indexar dados e interface do usuário via navegador para consultar os dados indexados (semelhante ao que gosta de uma pesquisa no google).

Como o design inicial era baseado em lucene (foi outro projeto do Apache que ganhou muitos elogios nesse período e ainda é rock), o código nutch NÃO foi alterado ou tornado genérico para que outras estruturas de indexação possam ter sido usadas. Se você quiser, precisará de muitos esforços para colocar sua estrutura de indexação.

Em versões recentes, (nutch ver 1.3 e mais), a equipe de desenvolvimento da Nutch percebeu que é difícil rastrear o trabalho envolvido na indexação devido a mudanças nas necessidades e conhecimentos necessários. Era melhor delegar a responsabilidade de indexar ao Solr (é uma estrutura de indexação baseada em lucene). Os desenvolvedores da Nutch se concentram apenas na parte de rastreamento. Então, agora o nutch não é um mecanismo de busca completo, mas é um rastreador da Web completo.

Espero que isso atenda a sua consulta. Você pode navegar notícias nutch para mais informações.

Últimos acontecimentos:

Recentemente, estão sendo feitos esforços para criar uma biblioteca genérica para rastreadores (sob commons). Este projeto é commons-crawler que terá todas as funções necessárias para um rastreador da Web e pode ser usado para criar rastreadores. Outras versões de nutch estarão usando esta biblioteca como uma dependência.