/ / Чи потрібно Solr індексувати сканування даних для Nutch? - solr, lucene, nutch

Чи потрібна Solr для індексації сканування даних для Nutch? - сол, люцен, латч

Я виявив, що Nutch 1.4 містить тільки один Indexer / solrindex. Чи є Solr єдиним способом для Nutch індексувати скановані дані? Якщо ні, то які інші способи?

Мені також цікаво, чому Nutch 1.4 використовує Solr для індексації даних. Чому б це не зробити самостійно?

Відповіді:

3 для відповіді № 1

Solr використовує lucene внутрішньо. З 2005 року nutch був позначений як підпроект Lucene. Історично, nutch використовували lucene індекси і бувповноцінна пошукова система (це було до версії 1.0). Він мав можливість сканування та навіть підтримку індексування даних та інтерфейсу користувача через веб-переглядач для запиту індексованих даних (подібно до таких, як пошук Google).

Оскільки початковий дизайн базувався на люцене (це був ще один проект, який заробив багато слави в цей період і ще рок), код Nutch НЕ змінювався або не робився загальним, щоб можна було використовувати інші рамки індексування. Якщо ви хочете, то вам потрібно багато зусиль, щоб покласти на нього рамки індексування.

В останніх версіях, (nutch ver 1.3 та далі), команда Nutch дети зрозумів, що його важко відстежувати роботу, пов'язану з індексацією через зміни потреб і знань, необхідних. Краще делегувати відповідальність за індексацію Solr (його основа індексації на основі lucene). Розробники Nutch орієнтуються лише на частину сканування. Так що зараз nutch не є повноцінною пошуковою системою, але її повноцінним веб-гусеничним.

Сподіваюся, що це відповість на ваш запит. Ви можете переглядати новини для отримання додаткової інформації.

Останні події:

Останнім часом відбуваються зусилля для створення універсальної бібліотеки для сканерів (під спільними ресурсами). Цей проект є commons-crawler які будуть мати всі функції, необхідні для веб-сканера, і можуть бути використані для створення сканерів. Подальші версії nutch будуть використовувати цю бібліотеку як залежність.