/ / Indexação / extração baseada em modelo com Apache Nutch & Solr - apache, solr, nutch

Indexação / Extração Baseada em Template com Apache Nutch & Solr - apache, solr, nutch

Eu sou novo na família de produtos Apache Nutch / Solr. Configurei o Nutch básico (1.6) com o Solr (4.3) e rastreei com êxito um site e o Solr indexou meus dados rastreados também.

Agora, minha pergunta é se eu rastrear um blog da Web, como onde o usuário pode fazer seus comentários (por exemplo, http://blogs.alliedtechnique.com/2009/04/16/setting-global-environment-variables-in-centos/), como posso garantir que o Nutch considere os usuárioscomentários e blog principal como documento separado. Portanto, quando pesquiso por palavras-chave, ele retorna o blog principal e os comentários como resultados separados e, posteriormente, eu poderia usar esses dados para análise de sentimentos.

Eu apreciaria muito qualquer ajuda aqui.

Obrigado. Tony

Respostas:

0 para resposta № 1

Você pode usar o plug-in de filtro xpath para segregar o conteúdo rastreado em dois campos diferentes. http://www.atlantbh.com/precise-data-extraction-with-apache-nutch/

O conteúdo da classe = "postagem" iria para o campo A, o conteúdo da classe = "lista de comentários" iria para o campo B.

Na lógica da sua página de pesquisa, você consulta o Solr no campo A para que os resultados da pesquisa sejam apenas da postagem do seu blog, não dos comentários.

Os dados dos comentários ainda são salvos no documento, mas não podem ser pesquisados.