/ / ¿Es necesario Solr para indexar los datos rastreados para Nutch? - solr, lucene, nutch

¿Es necesario Solr para indexar los datos rastreados para Nutch? - solr, lucene, nutch

Encontré que Nutch 1.4 solo contiene un indexador / solrindex. ¿Es Solr la única forma de que Nutch indexe los datos rastreados? Si no, ¿cuáles son las otras formas?

También me pregunto por qué Nutch 1.4 usa Solr para indexar los datos. ¿Por qué no hacerlo por sí mismo? ¿No aumenta el acoplamiento de estos dos proyectos?

Respuestas

3 para la respuesta № 1

Solr utiliza lucene internamente. Desde 2005, nutch fue designado como un subproyecto de Lucene. Históricamente, nutch usó índices de lucene y fue unMotor de búsqueda completo (esto fue hasta la versión 1.0). Tenía capacidad de rastreo e incluso soporte para indexar datos e IU a través del navegador para consultar los datos indexados (similar a eso, como una búsqueda de Google).

Como el diseño inicial se basó en lucene (fue otro proyecto de apache que se ganó muchos elogios en ese período y todavía es increíble), el El código de nutch NO se modificó ni se hizo genérico para que se pudieran haber usado otros marcos de indexación. Si lo desea, necesita muchos esfuerzos para poner su marco de indexación.

En versiones recientes, (ver versión 1.3 y posteriores), el equipo de desarrollo de Nutch se dio cuenta de que es difícil rastrear el trabajo involucrado en la indexación debido a las necesidades cambiantes y la experiencia requerida. Era mejor delegar la responsabilidad de indexar a Solr. (Es un marco de indexación basado en Lucene). Los desarrolladores de Nutch se enfocan solo en la parte de rastreo. Así que ahora nutch no es un motor de búsqueda completo, pero es un rastreador web de pleno derecho.

Espero que esto responda a su consulta. Puedes navegar noticias de nutch para más información.

Últimos acontecimientos:

Recientemente se están realizando esfuerzos para crear una biblioteca genérica para rastreadores (bajo commons). Este proyecto es rastreador de bienes comunes que tendrá todas las funciones necesarias para un rastreador web y se puede utilizar para crear rastreadores. Otras versiones de nutch usarán esta biblioteca como una dependencia.