/ / java.lang.OutOfMemoryError докато използвате coalesce (1) - scala, hadoop, apache-spark

java.lang.OutOfMemoryError при използване на обединяване (1) - скала, хаоп, apache-spark

Опитвам се да запазя rdd от по-долу, data.coalesce (1) .saveAsTextFile (outputPath)

но получавам java.lang.OutOfMemoryError: Не може да придобие 76 байта памет, имам 0

Някой се сблъсква с подобен проблем, ако е така, бих искал да науча как го поправите

Отговори:

0 за отговор № 1

може ли да предоставите повече подробности за получаването на OOM на водача на изпълнителя?

С кодовете, които сте публикували, се обединявате (1), принуждавайки всички изпълнители да изпращат данни на един изпълнител и ако сте с размер на данни, ще започнете да виждате неуспехи.

сливането води до разбъркване. (Всички mapperTask изпращат данни до една задача).

последвам http://bytepadding.com/big-data/spark/understanding-spark-through-map-reduce/ за получаване на задълбочено разбиране