/ / análisis de archivos de registro en hcatalog regex o serde - hadoop, hcatalog

análisis de archivos de registro en hcatalog regex o serde - hadoop, hcatalog

Soy bastante nuevo en Hadoop.

Estoy tratando de cargar mi archivo de registro en HCatalog. El siguiente es el formato de mi archivo de registro.

Time: 2014-10-28 06:32:34Z
UserID: arun
GroupID: admin
Page: welcome.aspx
Message: Login successful

Time: 2014-10-28 06:32:34Z
UserID: arun
GroupID: admin
Page: main.aspx
Message: menu load
..
..

¿Necesito escribir un SerDe para analizar esto o puedo lograrlo mediante regex?

Respuestas

0 para la respuesta № 1

Creo que le gustaría cargar los archivos de registro externos en las tablas de Hive en las que el servicio HCatalog administra el metastore de Hive.

Si es así, primero analice los registros de registro de origen para un delimitador fijo que ayudará a Hive a analizar los registros en el número requerido de columnas, principalmente la pestaña (t) char ayudará.

La siguiente opción podría ser lograr el análisis de columnas de los registros de registro de origen utilizando la clase Hive RegexSerDe con la expresión regular relevante.

Si el análisis de expresiones regulares no es factible, entonces elotra opción es crear una clase de serde de colmena personalizada para analizar los registros del archivo de registro de origen. Con la ayuda de la clase de serde personalizada, Hive podrá ajustar perfectamente las celdas delimitadas en las columnas relevantes de la tabla externa de Hive.

Consulte,

http://docs.aws.amazon.com/gettingstarted/latest/emr/getting-started-emr-load-data.html

Apache Hive regEx serde: tipos de datos

http://blog.cloudera.com/blog/2012/12/how-to-use-a-serde-in-apache-hive/