Помощ при програмиране, отговори на въпроси / Scala / java.lang.OutOfMemoryError докато използвате coalesce (1) - scala, hadoop, apache-spark

java.lang.OutOfMemoryError при използване на обединяване (1) - скала, хаоп, apache-spark

Опитвам се да запазя rdd от по-долу, data.coalesce (1) .saveAsTextFile (outputPath)

но получавам java.lang.OutOfMemoryError: Не може да придобие 76 байта памет, имам 0

Някой се сблъсква с подобен проблем, ако е така, бих искал да науча как го поправите

Отговори:

0 за отговор № 1

може ли да предоставите повече подробности за получаването на OOM на водача на изпълнителя?

С кодовете, които сте публикували, се обединявате (1), принуждавайки всички изпълнители да изпращат данни на един изпълнител и ако сте с размер на данни, ще започнете да виждате неуспехи.

сливането води до разбъркване. (Всички mapperTask изпращат данни до една задача).

последвам http://bytepadding.com/big-data/spark/understanding-spark-through-map-reduce/ за получаване на задълбочено разбиране

Свързани въпроси

Съвместима версия на Scala за Spark 2.2.0? - скала, apache-искра

пакет искра-ява как да използвате Spark от Scala? - скала, искра-ява

Грешка при създаването на контекста Spark - скала, apache-spark, sbt

Получавам java.lang.NoClassDefFoundError, когато се опитам да стартирам пример за брой думи в Spark - scala, apache-spark

spark submit java.lang.NullPointerException грешка - java, spark-submit

Apache Spark: проблем със Scala пример - java, scala, ubuntu, apache-spark

Hbase KeyValue размер твърде голям - hbase

Каква е ползата от използването на CDH (cloudera)? [затворен] - хайоп, bigdata, apache-spark, cloudera, cloudera-cdh

Грешка при Hadoop при използване на искра - подаване - hadoop, apache-spark, amazon-ec2, spark-ec2

Има ли официалния начин да се поддържат както Spark 1.6.2 и 2.0.0 на Hadoop прежда 2.7.2 клъстер? - хайоп, апаш-искра, прежда

Spark SQL в Google Compute Engine - хаоп, apache-spark, google-compute-engine, Google-cloud-платформа, google-hadoop

Инсталиране на искри на прежди от хадопад - баш, хаоп, апаш-искра, прежда

Използване на TestHiveContext / HiveContext в единични тестове - apache-spark, кошер, apache-spark-sql, hivecontext

spark-hbase конектор с изтекъл срок на валидност kerberos - apache-spark, hbase, scar-streaming, cloudera

ClassNotFoundException при опита да стартирате SparkPi пример - apache-spark, scala-2.10

Доставчикът org.apache.hadoop.fs.s3a.S3AFileSystem не може да бъде инстанция - apache-spark, hadoop, amazon-s3, файлови системи

Spark на S3 за съхранение - apache-spark, amazon-s3

java.lang.ClassNotFoundException: org.apache.hadoop.util.StopWatch - apache-spark, apache-spark-mllib

DataFrame.write.parquet () хвърля NPE - apache-spark, spark-dataframe

Spark s3 read дава NullPointerException - amazon-s3, apache-spark