Ich versuche, Nutch als Image-Crawler zu konfigurieren und konnte bereits die Image-URLs nach dem Crawlen erhalten. Nun möchte ich die Start-URL jeder Bild-URL erhalten. Wie kann ich das tun? Vielen Dank!
Antworten:
0 für die Antwort № 1Versuchen Sie, linkdb (invertierter Index) aus den durchforsteten Segmenten zu generieren, und Sie könnten die Eltern-URLs der URLs erhalten. Wenn eine URL ein Elternteil hat, ist dies der Kern dieser URL.
Lesen Dies und Dies um Hilfe zu Befehlen.