/ / nutch vs solr indexierung - solr, lucene, nutch

nutch vs solr indexierung - solr, lucene, nutch

Ich habe vor kurzem begonnen, an Nutch zu arbeiten, und ich binversuchen zu verstehen, wie es funktioniert. Soweit ich weiß, wird Nutch im Grunde verwendet, um das Web zu crawlen und solr / Lucene wird zum Indexieren und Suchen verwendet. Aber wenn ich Dokumentation über nutch lese, heißt das, dass nutch auch inverted indexing macht. Verwendet es intern Lucene für die Indizierung oder hat es eine andere Bibliothek für die Indizierung? Wenn es solr / lucene für die Indizierung verwendet, warum ist es dann notwendig, solr mit nutch zu konfigurieren, wie es im nutch-Tutorial heißt?

Ist die Indexierung standardmäßig erfolgt? Ich meine, ich führe diesen Befehl aus, um mit dem Crawlen zu beginnen. Erfolgt die Indexierung hier?

bin/nutch crawl urls -dir crawl -depth 3 -topN 5

Oder geschieht die Indizierung nur in diesem Fall? (Laut Tutorial: Wenn Sie bereits einen Solr-Core eingerichtet haben und darauf indexieren möchten, müssen Sie den Parameter -solrr beispielsweise zu Ihrem Crawl-Befehl hinzufügen)

bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 5

Antworten:

4 für die Antwort № 1

Einen Blick darauf werfen Hier könnte nützlich sein. Wenn Sie den ersten Befehl ausführen:

bin/nutch crawl urls -dir crawl -depth 3 -topN 5

Sie crawlen, was bedeutet, dass nutch seine eigenen internen Daten erstellt, bestehend aus:

  • das Crawldb
  • die Linkdb
  • eine Reihe von Segmenten

Sie können sie in den folgenden Verzeichnissen sehen, die während der Ausführung des Crawl-Befehls erstellt werden:

  • crawl / crawldb
  • crawl / linkdb
  • Crawlen / Segmente

Sie können sich diese Daten als eine Art Datenbank vorstellen, in der nutch Daten durchsucht. Das hat nichts mit einem invertierten Index zu tun.

Nach dem Crawling-Prozess können Sie Ihre Daten auf einer Solr-Instanz indizieren. Sie können einen einzelnen Befehl crawlen und dann indexieren, was der zweite Befehl Ihrer Frage ist:

bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 5

Andernfalls können Sie nach dem crawl-Befehl einen zweiten Befehl ausführen, der spezifisch für die Indizierung nach Solr ist, aber Sie müssen den Pfad Ihres crawldb, linkdb und segments angeben:

bin/nutch solrindex http://localhost:8983/solr/ crawldb -linkdb crawldb/linkdb crawldb/segments/*

3 für die Antwort № 2

Sie werden vielleicht durch das Erbe von Nutch verwirrtVersionen und zugehörige Online-Dokumentation. Ursprünglich hatte es seinen eigenen Index erstellt und hatte eine eigene Web-Suchoberfläche. Die Verwendung von Solr wurde zu einer Option, die zusätzliche Konfiguration und Fiddling erfordert. Beginnend mit 1.3 wurden die Indexierungs- und Server-Teile entfernt und jetzt wird angenommen, dass Nutch Solr verwenden wird.