/ / чому гайка завжди створює linkdb, хоча це не потрібно для отримання вмісту? - горіх

чому завжди потрібно створювати linkdb, навіть якщо це не потребує отримання контенту? - nutch

Я читаю через розділ про горіх у hadoop,остаточне керівництво. Я розумію концепцію ранжирування сторінки за допомогою зворотного посилання. Однак я не бачу, що це грає роль, коли ви просто хочете сканувати кілька сайтів. Оскільки створення linkdb - це робота зі зменшенням карти, вона повинна зайняти багато обчислювальних ресурсів. Мені просто цікаво, чому завжди створюється linkdb, коли більшість випадків використання горіхів - це просто отримання веб-контенту для призначених URL-адрес.

Відповіді:

1 для відповіді № 1

Це тому, що Nutch використовує сторінку (яка)обчислюється за допомогою інформації посилання), щоб визначити пріоритет сканування. Наприклад, раніше буде сканувати посилання, що має високий рейтинг сторінки, ніж посилання з низьким рівнем сторінки.

Nutch був розроблений для використання у великих масштабахвеб-сканер, тому обчислення рейтингу сторінок та оцінка їх веб-сторінок була і залишається важливою складовою. Якщо ви скануєте кілька сайтів, ви, ймовірно, повинні використовувати scrappy (бібліотеку пітонів).

Я сподіваюся, що це відповість на ваше запитання.