Hilfe bei der Programmierung, Antworten auf Fragen / Java / Nutch: Holen Sie sich die Samen-URL jeder URL - Java, Niederländisch, Web-Crawler

Nutch: Holen Sie sich die URL jeder URL - Java, Nutch, Web-Crawler

Ich versuche, Nutch als Image-Crawler zu konfigurieren und konnte bereits die Image-URLs nach dem Crawlen erhalten. Nun möchte ich die Start-URL jeder Bild-URL erhalten. Wie kann ich das tun? Vielen Dank!

Antworten:

0 für die Antwort № 1

Versuchen Sie, linkdb (invertierter Index) aus den durchforsteten Segmenten zu generieren, und Sie könnten die Eltern-URLs der URLs erhalten. Wenn eine URL ein Elternteil hat, ist dies der Kern dieser URL.
Lesen Dies und Dies um Hilfe zu Befehlen.

Verwandte Fragen

Wie zu analysieren und zu holen XML Sitemap nutch - XML, Web-Crawler, Sitemap, nutch

Apache Nutch auf Windows - Windows, Cygwin, Nutch

Nutch 1.13 crawl script funktioniert nicht - web-crawler, nutch

Nutch crawlt nur wenige Links in einer bestimmten Domain - web-crawler, nutch

Ist Solr notwendig, um gecrawlte Daten für Nutch zu indizieren? - Solr, Lucene, Nutsch

Unterstützt Nutch 2.1 weiterhin Dateisegmente? - Nutsch

nutch crawl verwendet nicht alle Einträge in seed.txt - nutch, web-crawler

warum erstellt nutch immer die linkdb, obwohl sie nicht zum abholen von Inhalten benötigt wird? - Nutsch

Nutch .Net-Implementierung [geschlossen] - .net, nutch

Fehler bei der Ausführung von Apache nutch-2.2.1 - Java, Apache, Hadoop, Nutch

Aktualisieren Sie Nutch, um die Eltern jeder abgerufenen URL abzurufen - java, nutch

Wie verwende ich Apache Nutch über eine Java-Anwendung? - Java, Nutsch

Java Web Crawler [geschlossen] - Java

MapReduce Nutch tutorials [geschlossen] - java, mapreduce, nutch

Wie bekomme ich eine individuelle HTML-Datei von "Segmenten", die ich nach crwal in nutch bekommen habe? - Java, Linux, Indizierung, Web-Crawler, Nutch

Wie erstelle ich einen benutzerdefinierten Indexersteller für Apache Nutch 2.x? - Apache, Plugins, Konfiguration, nutch

Error Nutch Keine Agenten in 'http.agent.name' aufgelistet - Apache, Web-Crawler, Nutch

Wie man Apache Nutch 2.3.1 auf das Crawlen von Story-Inhalten beschränkt und nicht auf Sidebars - Apache, Hadoop, Web-Crawler, Sitemap, Nutch

Apache Nutch Crawler wie statische Ordner wie ausschließen; cgi-bin, Bilder, css von Nutch Crawler ausschließen? - Apache, Hadoop, Lucene, Mapreduce, Nutch

SolrIndexerJob: java.lang.RuntimeException: Auftrag fehlgeschlagen: - Apache, nutch