Hilfe bei der Programmierung, Antworten auf Fragen / Java / Wie zähle ich die Anzahl der Dateien in HDFS von einem MR-Job? - Java, Hadoop, Mapreduce, hdfs

Wie zähle ich die Anzahl der Dateien in HDFS von einem MR-Job? - Java, Hadoop, Mapreduce, hdfs

Ich bin neu in Hadoop und Java. Ich versuche, die Anzahl der Dateien in einem HDFS-Ordner aus dem MapReduce-Treiber zu ermitteln, den ich gerade schreibe. Ich möchte dies tun, ohne die HDFS-Shell aufzurufen, da ich das Verzeichnis weitergeben möchte, das ich benutze, wenn ich den MapReduce-Job ausführe. Ich habe eine Reihe von Methoden ausprobiert, hatte aber keinen Erfolg bei der Implementierung Unerfahrenheit mit Java.

Jede Hilfe würde sehr geschätzt werden.

Vielen Dank,

Nomade.

Antworten:

2 für die Antwort № 1

Sie können einfach das Dateisystem verwenden und über die Dateien innerhalb des Pfades iterieren. Hier ist ein Beispielcode

int count = 0;
FileSystem fs = FileSystem.get(getConf());
boolean recursive = false;
RemoteIterator<LocatedFileStatus> ri = fs.listFiles(new Path("hdfs://my/path"), recursive);
while (ri.hasNext()){
count++;
ri.next();
}

Verwandte Fragen

Visualisierung von XML-Daten aus hadoop - xml, hadoop, hdfs

Shell, die Hadoop-Befehle ausführt - Shell

Finden Sie heraus, wer der Super-User auf einem HDFS-Knoten ist - Berechtigungen, hdfs

Include map und reduce in C / OpenCL geschrieben in hadoop - mapreduce, opencl, gpgpu, gpu-programmierung, hadoop-streaming

Welche Anforderungen müssen als Dateisystem für MapReduce - mapreduce, hdfs erfüllt werden?

Hadoop 2.6.1 java.lang.NullPointerException bei org.apache.hadoop.hdfs.DFSOutputStream.isLazyPersist (DFSOutputStream.java:1709) - Java, Hadoop

Speichern von Dateien zu S3: lokale Datei vs HDFS - Java, Linux, Hadoop, Amazon-s3, hdfs

Verwenden von libhdfs für Datei-E / A auf HDFS - Java, Hadoop, hdfs

Fehler beim Aktualisieren von Daten in HDFS - hdfs, gerinne

Shell-Befehl zum Übertragen von Dateien von HDFS auf lokales Dateisystem in Hadoop 2.6.9 - hadoop2, hortonworks-data-platform

Bedeutung von $ PWD in mapred-site.xml - hadoop, mapreduce

pig @ hadoop: Verarbeitung lokaler Dateien ohne hdfs mit mehreren Kernen - Hadoop, Multiprocessing, Apache-Pig

HDFS zu HDFS verschieben Dateien vollständig - hadoop, hdfs, cloudera

Hadoop: ist es möglich, TestDFSIO-Benchmark als Nicht-hdfs-Benutzer auszuführen - Hadoop, Benchmarking

Weitere Informationen zum Laden von Hadoop / HDFS-Daten - hadoop, hdfs

Hadoop-Fehler du: java.util.ConcurrentModificationException - hadoop, du, hfs

Kopieren von Verzeichnissen in HDFS mit der JAVA-API - hadoop, hdfs

Wann wird HDFS nicht verfügbar sein? - hadoop, hdfs

Wo speichert hadoop die Ausgabedateien von Mapper, Partitionierer und Combiner? - Hadoop, Mapreduce

HDFS Datenknoten startet nicht mit Kerberos - Authentifizierung, Hadoop, Kerberos, hdfs