/ / XML Serde para Hadoop / Hive - hadoop, colmena

XML Serde para Hadoop / Hive - hadoop, colmena

Usé JSONSerde para procesar grandes cantidades de datos JSON almacenados en S3 usando Amazon EMR. Uno de mis clientes tiene un requisito para procesar datos XML masivos, pero no pude encontrar XML Serde para usar con HIVE.

¿Alguna gente ha procesado XML con colmenas? Agradecería sus sugerencias y comentarios sobre esto antes de comenzar a construir mi propio XML Serde.

Respuestas

0 para la respuesta № 1

Yo uso lo siguiente para el análisis de XML serde en colmena ---

CREATE EXTERNAL TABLE XYZ(
X STRING,
Y STRING,
Z ARRAY<STRING>
)
ROW FORMAT SERDE "com.ibm.spss.hive.serde2.xml.XmlSerDe"
WITH SERDEPROPERTIES (
"column.xpath.X"="/XX/@X",
"column.xpath.Y"="/YY/@Y"
)
STORED AS
INPUTFORMAT "com.ibm.spss.hive.serde2.xml.XmlInputFormat"
OUTPUTFORMAT "org.apache.hadoop.hive.ql.io.IgnoreKeyTextOutputFormat"
LOCATION "/user/XXX"
TBLPROPERTIES (
"xmlinput.start"="<xml start",
"xmlinput.end"="</xml end>"
);