Eu sou novo na família de produtos Apache Nutch / Solr. Configurei o Nutch básico (1.6) com o Solr (4.3) e rastreei com êxito um site e o Solr indexou meus dados rastreados também.
Agora, minha pergunta é se eu rastrear um blog da Web, como onde o usuário pode fazer seus comentários (por exemplo, http://blogs.alliedtechnique.com/2009/04/16/setting-global-environment-variables-in-centos/), como posso garantir que o Nutch considere os usuárioscomentários e blog principal como documento separado. Portanto, quando pesquiso por palavras-chave, ele retorna o blog principal e os comentários como resultados separados e, posteriormente, eu poderia usar esses dados para análise de sentimentos.
Eu apreciaria muito qualquer ajuda aqui.
Obrigado. Tony
Respostas:
0 para resposta № 1Você pode usar o plug-in de filtro xpath para segregar o conteúdo rastreado em dois campos diferentes. http://www.atlantbh.com/precise-data-extraction-with-apache-nutch/
O conteúdo da classe = "postagem" iria para o campo A, o conteúdo da classe = "lista de comentários" iria para o campo B.
Na lógica da sua página de pesquisa, você consulta o Solr no campo A para que os resultados da pesquisa sejam apenas da postagem do seu blog, não dos comentários.
Os dados dos comentários ainda são salvos no documento, mas não podem ser pesquisados.