/ / EMR Spark Streaming Job Desaparece el registro de Stdout - apache-spark, spark-streaming, emr

El registro de Stdout de EMR Spark Streaming Job desaparece - apache-spark, spark-streaming, emr

Cuando lanzo mi trabajo de transmisión de chispa en EMR (modo de clúster), puedo ver la salida estándar de mi trabajo durante los primeros momentos y luego desaparece ...

Puedo ver las pocas líneas de registro en el siguienteubicación en S3 (configuro EMR para copiar registros a mi cubo s3): s3-us-west-1.amazonaws.com//spark/logs/j-IEMN2TMESREK/containers/application_1454718762107_0001/container_1454718762107_0001_01_000001/stdout.gz

Después de ~ 10 segundos de trabajo de transmisión en ejecución, no se entrega más stdout a los registros.

¿EMR está redireccionando la salida estándar a otro lugar?

Respuestas

0 para la respuesta № 1

Resultó que mis ejecutores no estaban obteniendo la configuración de log4j.

Usé el paso bootstrap para colocar log4j.properties en /tmp/log4jproperties.

Entonces usando spark-submit con los siguientes argumentos

--conf spark.executor.extraJavaOptions=-Dlog4j.configuration=/tmp/log4j.properties --files file:///tmp/log4j.properties