/ Je Solr potrebné na indexovanie indexovo prehľadaných údajov pre spoločnosť Nutch? - solr, lucene, nutch

Je Solr potrebné na indexovanie indexovo prehľadaných údajov pre spoločnosť Nutch? - solr, lucene, nutch

Zistil som, že Nutch 1.4 obsahuje len jeden Indexer / solrindex. Je Solr jedinou cestou pre Nutch na indexovanie indexovo prehľadávaných údajov? Ak nie, aké sú iné spôsoby?

Zaujímalo by ma tiež, prečo Nutch 1.4 používa Solr na indexovanie údajov.Prečo to neurobíme samo o sebe? Nie to zvyšuje spojenie týchto dvoch projektov?

odpovede:

3 pre odpoveď č. 1

Solr používa lucene interne. Od roku 2005 bol orech určený ako subprojekt spoločnosti Lucene. Historicky, orech používal lucene indexy a bol aplnohodnotný vyhľadávač (to bolo až do verzie 1.0). Mala prehľadávaciu schopnosť a dokonca podporu na indexovanie údajov a používateľského rozhrania prostredníctvom prehliadača na vyhľadávanie indexovaných údajov (podobne ako pri vyhľadávaní Google).

Keďže pôvodný dizajn bol založený na lucene (to bol ďalší projekt Apache, ktorý v tom čase zarobil veľa kudosov a ešte skaly), nutch kód nebol zmenený alebo generický, aby mohli byť použité iné indexovacie rámce, Ak chcete, potom potrebujete veľa úsilia, aby ste s ním vytvorili indexovací rámec.

V posledných verziách, (nutch ver 1.3 a ďalej) tím Nutch dev si uvedomil, že je ťažké sledovať prácu pri indexovaní v dôsledku meniacich sa potrieb a odborných znalostí. Bolo lepšie delegovať zodpovednosť indexovania na Solr (jeho indexový rámec založený na lucene). Vývojári Nutch sa zameriavajú len na časť plazov. Takže teraz orech nie je plnohodnotný vyhľadávač, ale jeho plnohodnotný webový crawler.

Dúfam, že toto odpovie na váš dopyt. Môžete prehliadať mačacie správy pre viac informácií.

Najnovšie udalosti:

Nedávno sa vyvíja úsilie o vytvorenie generickej knižnice pre crawlery (pod spoločnými). Tento projekt je commons-crawler ktorý bude mať všetky funkcie požadované pre webový prehľadávač a môže byť použitý na vytváranie prehľadávačov. Ďalšie kúzelné verzie budú používať túto knižnicu ako závislosť.