/ / Оновити Nutch, щоб витягнути батьківську адресу всіх завантажених URL-адрес - java, nutch

Оновити Nutch для отримання батьківського коду всіх вилучених URL-адрес - java, nutch

Коли я запускаю сканер Apache Nutch 1.4, я хочу зберегти додаткову інформацію. Я хочу зберегти батьківську кожен URL-адресу.

Наприклад, я хочу сканувати сторінку a.html, яка має 2 прив'язки до b.html та c.html. Таким чином, коли я сканую a.html, я повинен отримати щось подібне: -

a.html null
b.html a.html
c.html a.html

Я хочу зберегти щось подібне. Я прочитав, як функціонує орешек, і запустіть головою в затемнення. Я також читаю fetcher.java і зареєструвався, де він завантажив вміст. Але я не мав успіху, дізнавшись, де Nutch отримує дочірні URL-адреси даної сторінки. Я думаю, цей крок відбувається після кроку розбору.

Відповіді:

2 для відповіді № 1

Я думаю, що інформацію можна отримати, створивши linkdb.

База даних посилань або linkdb: Містить список відомих посилань на кожну URL-адресу, включаючи як URL-адресу джерела, так і текст прив'язки посилання. Вона підтримує перевернуту карту посилань, що містить вхідні посилання для кожного URL-адреси.

bin/nutch invertlinks crawldb/linkdb -dir crawldb/segments

У фазі аналізу, nutch генерує outlinks зсканований вміст, а пізніше знову виявлені URL-адреси зберігаються для сканування в етапі оновлення. Нові URL-адреси завантажуються в наступному циклі / раунді сканування головоломки.