/ / Solr est-il nécessaire d'indexer les données analysées pour Nutch? - solr, lucene, nutch

Solr est-il nécessaire pour indexer les données analysées pour Nutch? - solr, lucene, nutch

J'ai trouvé que Nutch 1.4 ne contient qu'un seul indexeur / solrindex. Solr est-il le seul moyen pour Nutch d’indexer les données analysées? Si non, quels sont les autres moyens?

Je me demande aussi pourquoi Nutch 1.4 utilise Solr pour indexer les données. Pourquoi ne pas le faire lui-même? N’augmente-t-il pas le couplage de ces deux projets?

Réponses:

3 pour la réponse № 1

Solr utilise lucene en interne. Depuis 2005, nutch a été désigné sous-projet de Lucene. Historiquement, le néerlandais utilisait les index lucene et était unmoteur de recherche à part entière (jusqu'à la version 1.0). Il disposait d'une capacité d'exploration et même d'une prise en charge permettant d'indexer les données et l'interface utilisateur via un navigateur afin d'interroger les données indexées (similaire à une recherche Google).

Comme la conception initiale était basée sur lucene (c’est un autre projet apache qui a fait l’objet de beaucoup de louanges à cette époque et qui est toujours en marche), le le code néerlandais n'a PAS été modifié ou générique, de sorte que d'autres cadres d'indexation auraient pu être utilisés. Si vous le souhaitez, vous devez déployer beaucoup d'efforts pour intégrer votre cadre d'indexation.

Dans les versions récentes, (Nutch ver 1.3 et plus), l’équipe de développement de Nutch a réalisé qu’il était difficile de suivre le travail d’indexation en raison de l’évolution des besoins et de l’expertise requise. Il était préférable de déléguer la responsabilité de l'indexation à Solr (c'est un framework d'indexation basé sur lucene). Les développeurs Nutch se concentrent uniquement sur la partie rampante. Alors maintenant, Nutch n’est pas un moteur de recherche à part entière, mais crawler.

J'espère que cela répond à votre requête. Vous pouvez parcourir nouvelles néerlandaises pour plus d'informations.

Derniers événements:

Récemment, des efforts ont été déployés pour créer une bibliothèque générique pour les robots d'exploration (sous commons). Ce projet est commun-crawler qui aura toutes les fonctions requises pour un robot Web et peut être utilisé pour créer des robots. D'autres versions en néerlandais utiliseront cette bibliothèque comme dépendance.