/ / Hadoop MapReduce WordCount Beispielfehler? - Hadoop, Mapreduce

Hadoop MapReduce WordCount Beispielfehler? - Hadoop, Mapreduce

Mit Bezug auf das grundlegende WordCount-Beispiel: https://hadoop.apache.org/docs/current/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduceTutorial.html Ich weiß, dass HDFS Dateien in Blöcken und Karten aufteilenAufgaben arbeiten auf einem einzelnen Block. Es gibt also keine Garantie, dass der von einer Map-Aufgabe analysierte Block kein Wort enthält, das im nächsten Block fortgesetzt wird, was zu einem Fehler führt (ein Wort wird zweimal gezählt). Ich weiß, dass dies ein Beispiel ist und immer mit einer kleinen Datei angezeigt wird, aber wäre das in realen Szenarien kein Problem?

Antworten:

1 für die Antwort № 1

In Hadoop arbeiten Sie an Eingabeaufteilungen und nicht anBlöcke. Ein Input-Split ist ein vollständiger Datensatz. Sie möchten den Fall vermeiden, in dem ein Mapper über zwei Splits geht, da dies sowohl die Performance als auch den Traffic erhöht.

In einer Textwelt, sagen wir, sind Sie in Block1 undSie haben einen Satz wie "Ich bin ein Ha" und Block2 fährt mit "doop developer" fort, dann erzeugt dies Netzwerkverkehr, da wir immer an einem Knoten mit einem vollen Eingabesplit arbeiten müssen und einige Daten an das andere übertragen werden müssen Knoten.