Ayuda en la programación, respuestas a preguntas / Chispa de apache / Spark escribe en postgres lento - apache-spark, dataframe, apache-spark-sql

Spark escribe en postgres lento - apache-spark, dataframe, apache-spark-sql

Estoy escribiendo datos (aproximadamente 83 millones de registros) desde un marco de datos en postgresql y es un poco lento. Toma 2.7 horas para completar la escritura en db.

Mirando a los ejecutores, solo hay una tarea activa ejecutándose en un solo ejecutor. ¿Hay alguna manera de que pueda paralelizar las escrituras en db usando todos los ejecutores en Spark?

...
val prop = new Properties()
prop.setProperty("user", DB_USER)
prop.setProperty("password", DB_PASSWORD)
prop.setProperty("driver", "org.postgresql.Driver")



salesReportsDf.write
.mode(SaveMode.Append)
.jdbc(s"jdbc:postgresql://$DB_HOST:$DB_PORT/$DATABASE", REPORTS_TABLE, prop)

Gracias

Respuestas

5 para la respuesta № 1

Entonces descubrí el problema. Básicamente, volver a particionar mi marco de datos aumenta el rendimiento de escritura de la base de datos en un 100%

def srcTable(config: Config): Map[String, String] = {

val SERVER             = config.getString("db_host")
val PORT               = config.getInt("db_port")
val DATABASE           = config.getString("database")
val USER               = config.getString("db_user")
val PASSWORD           = config.getString("db_password")
val TABLE              = config.getString("table")
val PARTITION_COL      = config.getString("partition_column")
val LOWER_BOUND        = config.getString("lowerBound")
val UPPER_BOUND        = config.getString("upperBound")
val NUM_PARTITION      = config.getString("numPartitions")

Map(
"url"     -> s"jdbc:postgresql://$SERVER:$PORT/$DATABASE",
"driver"  -> "org.postgresql.Driver",
"dbtable" -> TABLE,
"user"    -> USER,
"password"-> PASSWORD,
"partitionColumn" -> PARTITION_COL,
"lowerBound" -> LOWER_BOUND,
"upperBound" -> UPPER_BOUND,
"numPartitions" -> NUM_PARTITION
)

}

1 para la respuesta № 2

Spark también tiene una opción llamada "batchsize" mientras escribe usando jdbc. El valor predeterminado es bastante bajo. (1000)

connectionProperties.put("batchsize", "100000")

Establecerlo en valores mucho más altos debería acelerar la escritura en bases de datos externas.

preguntas relacionadas

Transformación del marco de datos (preparación de datos) en apache spark scala - scala, join, apache-spark, multilabel-classification

Intellisense en Intellij con bibliotecas de chispas: scala, apache-spark, intellij-idea

Convierta el DataFrame de chispa a MlLib Matrix - scala, apache-spark, spark-dataframe, apache-spark-mllib

¿Qué líneas debo agregar a spark-defaults.conf para poder usar phoenix de pyspark? - python, pyspark, hortonworks-plataforma de datos, phoenix

entendimiento de la dependencia de la chispa maven - maven, apache-spark

Nuevo en Spark y Spark SQL con Java - java, apache-spark, apache-spark-sql, migración de datos, bigdata

Spark: cómo cambiar la matriz de datarframe [String] a RDD [Array [String]] - matrices, scala, apache-spark

Enlace la chispa de la tubería con la aplicación de chispa que comienza con la instancia de SparkSession - apache-spark, apache-crunch

apache spark bluemix imposible - apache-spark, ibm-cloud

Apache Spark no ve todo el RAM de mis máquinas: apache-spark, google-compute-engine, apache-spark-mllib

¿Apache chispa tiene conciencia geo? - apache-spark, spark-dataframe

¿Cómo matar un trabajo de chispa si se conoce la id de la aplicación? - apache-spark, datastax-enterprise

Diferencia de cálculo entre Spark DataFrames - apache-spark

Spark sql row_number o número de secuencia? - apache-spark, apache-spark-sql

¿Acceder a la UI web de Spark desde una computadora remota (casa)? - apache-chispa

¿Por qué los ejecutores de transmisión de chispas comienzan en un momento diferente? - apache-spark, spark-streaming, línea de tiempo

¿Por qué Spark detecta 8 núcleos, cuando solo tengo 4? - apache-spark, cpu-cores, webui

¿Se puede acceder a DataFrame desde diferentes SparkSessions? - apache-spark, apache-spark-sql, spark-dataframe

Ho para leer el archivo comprimido ".gz" usando spark DF o DS? - apache-spark, apache-spark-sql, spark-dataframe, gzip, apache-spark-dataset

cómo hacer la actualización en la tabla en spark-SQL? - apache-spark-sql, hiveql