Hilfe bei der Programmierung, Antworten auf Fragen / Hadoop / Hadoop MapReduce WordCount Beispielfehler? - Hadoop, Mapreduce

Hadoop MapReduce WordCount Beispielfehler? - Hadoop, Mapreduce

Mit Bezug auf das grundlegende WordCount-Beispiel: https://hadoop.apache.org/docs/current/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduceTutorial.html Ich weiß, dass HDFS Dateien in Blöcken und Karten aufteilenAufgaben arbeiten auf einem einzelnen Block. Es gibt also keine Garantie, dass der von einer Map-Aufgabe analysierte Block kein Wort enthält, das im nächsten Block fortgesetzt wird, was zu einem Fehler führt (ein Wort wird zweimal gezählt). Ich weiß, dass dies ein Beispiel ist und immer mit einer kleinen Datei angezeigt wird, aber wäre das in realen Szenarien kein Problem?

Antworten:

1 für die Antwort № 1

In Hadoop arbeiten Sie an Eingabeaufteilungen und nicht anBlöcke. Ein Input-Split ist ein vollständiger Datensatz. Sie möchten den Fall vermeiden, in dem ein Mapper über zwei Splits geht, da dies sowohl die Performance als auch den Traffic erhöht.

In einer Textwelt, sagen wir, sind Sie in Block1 undSie haben einen Satz wie "Ich bin ein Ha" und Block2 fährt mit "doop developer" fort, dann erzeugt dies Netzwerkverkehr, da wir immer an einem Knoten mit einem vollen Eingabesplit arbeiten müssen und einige Daten an das andere übertragen werden müssen Knoten.

Verwandte Fragen

Welche Anforderungen müssen als Dateisystem für MapReduce - mapreduce, hdfs erfüllt werden?

Testen Sie, ob Hadoop richtig funktioniert - Java, Maven, Hadoop, Mahout

HADOOP :: java.lang.ClassNotFoundException: WordCount - Java, Hadoop, Mapreduce, KlassennotFunddexception

Hadoop Karte reduzieren Beispiel fest auf Running Job - Java, Macos, Hadoop, MapReduce, Jobs

MapReduce Nutch tutorials [geschlossen] - java, mapreduce, nutch

Wie ausführe ich JAR-Datei in Hadoop-Plattform in Ubuntu? - Java, Eclipse, Hadoop, Mapreduce, HBase

Keine gültige JAR von Test hadoop Mapreduce Wordcount - Java, Hadoop, Glas, Mapreduce

Hadoop-Rohre und neues Mapred-Paket - Hadoop, Pipe, Mapreduce

Bedeutung von $ PWD in mapred-site.xml - hadoop, mapreduce

Wie nimmt Hadoop MapReduce WordCount Eingaben als <Schlüssel, Wert> Paare? - Hadoop, Wörterbuch, Mapreduce

Können die Funktionen eines Load Balancers mit einem MapReduce-System durchgeführt werden? - Hadoop, Mapreduce

Wordcount läuft nicht in Cloudera - hadoop, amazon-ec2, mapreduce, cloudera

Hadoop: ist es möglich, TestDFSIO-Benchmark als Nicht-hdfs-Benutzer auszuführen - Hadoop, Benchmarking

Mapreduce-Fehler protokollieren Hadoop - hadoop, mapreduce, hadoop2, hadoopy

Kann jemand erklären, was der Unterschied in den Paketen ist: org.apache.hadoop.mapreduce zu org.apache.hadoop.mapred? - Hadoop, Amazon, Mapreduce

Wie funktioniert die MapReduce-Verarbeitung mit dem lokalen Dateisystem? - hadoop, mapreduce, hdfs

Wie man Mapreduce-Jobs in der Hortonworks-Sandbox mit HDP 2.4 überprüft - hadoop, hornonworks-data-platform, hortonworks-sandbox

Hadoop Mapper Reducer nimmt so viel Zeit in Anspruch - hadoop, mapreduce

Top N-Werte von Hadoop Map Reduce code - hadoop, mapreduce

Wie installiere ich Map Reduce Plugin auf Eclipse Luna auf Ubuntu - eclipse, hadoop, mapreduce