/ / Nutch: Holen Sie sich die Samen-URL jeder URL - Java, Niederländisch, Web-Crawler

Nutch: Holen Sie sich die URL jeder URL - Java, Nutch, Web-Crawler

Ich versuche, Nutch als Image-Crawler zu konfigurieren und konnte bereits die Image-URLs nach dem Crawlen erhalten. Nun möchte ich die Start-URL jeder Bild-URL erhalten. Wie kann ich das tun? Vielen Dank!

Antworten:

0 für die Antwort № 1

Versuchen Sie, linkdb (invertierter Index) aus den durchforsteten Segmenten zu generieren, und Sie könnten die Eltern-URLs der URLs erhalten. Wenn eine URL ein Elternteil hat, ist dies der Kern dieser URL.
Lesen Dies und Dies um Hilfe zu Befehlen.