/ / Importar datos comprimidos (gzip) de s3 a hive - hadoop, amazon-s3, hive, hdfs, amazon

Importación de datos comprimidos (gzip) desde s3 a hive - hadoop, amazon-s3, hive, hdfs, amazon

Tengo un montón de archivos .gzip en s3: //mybucket/file/*.gzip.

Estoy cargando en una mesa usando:

set hive.exec.dynamic.partition=true;
set hive.exec.dynamic.partition.mode=nonstrict;
set hive.exec.max.dynamic.partitions.pernode=1000;
set hive.enforce.bucketing = true;
SET hive.exec.compress.output=true;
SET io.seqfile.compression.type=BLOCK;
SET mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;

create external table db.tablename(col1 dataype,col1 dataype,col1 dataype,col1     dataype) PARTITIONED BY (col datatype)
CLUSTERED BY (col2) SORTED BY (col1,col2) into 200 BUCKETS
ROW FORMAT DELIMITED FIELDS TERMINATED BY "t" LINES TERMINATED BY "n" LOCATION "s3://mybucket/file";

Crea la tabla pero no carga los datos de s3 a hive / hdfs.

¿Alguna ayuda es apreciada?

Gracias Sanjeev

Respuestas

0 para la respuesta № 1

Creo que tus archivos presentes en s3:// mybucket / file / no está organizado en la estructura de directorio correcta para las particiones Hive. Le sugiero que cree una tabla externa sin particiones y grupos en s3: // mybucket / file / y luego escriba la consulta de Hive para leer los datos de esta tabla y escriba en su tabla particionada / cubo.