Cuando lanzo mi trabajo de transmisión de chispa en EMR (modo de clúster), puedo ver la salida estándar de mi trabajo durante los primeros momentos y luego desaparece ...
Puedo ver las pocas líneas de registro en el siguienteubicación en S3 (configuro EMR para copiar registros a mi cubo s3): s3-us-west-1.amazonaws.com//spark/logs/j-IEMN2TMESREK/containers/application_1454718762107_0001/container_1454718762107_0001_01_000001/stdout.gz
Después de ~ 10 segundos de trabajo de transmisión en ejecución, no se entrega más stdout a los registros.
¿EMR está redireccionando la salida estándar a otro lugar?
Respuestas
0 para la respuesta № 1Resultó que mis ejecutores no estaban obteniendo la configuración de log4j.
Usé el paso bootstrap para colocar log4j.properties en /tmp/log4jproperties
.
Entonces usando spark-submit
con los siguientes argumentos
--conf spark.executor.extraJavaOptions=-Dlog4j.configuration=/tmp/log4j.properties
--files file:///tmp/log4j.properties