Ayuda en la programación, respuestas a preguntas / Hadoop / Importar datos comprimidos (gzip) de s3 a hive - hadoop, amazon-s3, hive, hdfs, amazon

Importación de datos comprimidos (gzip) desde s3 a hive - hadoop, amazon-s3, hive, hdfs, amazon

Tengo un montón de archivos .gzip en s3: //mybucket/file/*.gzip.

Estoy cargando en una mesa usando:

set hive.exec.dynamic.partition=true;
set hive.exec.dynamic.partition.mode=nonstrict;
set hive.exec.max.dynamic.partitions.pernode=1000;
set hive.enforce.bucketing = true;
SET hive.exec.compress.output=true;
SET io.seqfile.compression.type=BLOCK;
SET mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;

create external table db.tablename(col1 dataype,col1 dataype,col1 dataype,col1     dataype) PARTITIONED BY (col datatype)
CLUSTERED BY (col2) SORTED BY (col1,col2) into 200 BUCKETS
ROW FORMAT DELIMITED FIELDS TERMINATED BY "t" LINES TERMINATED BY "n" LOCATION "s3://mybucket/file";

Crea la tabla pero no carga los datos de s3 a hive / hdfs.

¿Alguna ayuda es apreciada?

Gracias Sanjeev

Respuestas

0 para la respuesta № 1

Creo que tus archivos presentes en s3:// mybucket / file / no está organizado en la estructura de directorio correcta para las particiones Hive. Le sugiero que cree una tabla externa sin particiones y grupos en s3: // mybucket / file / y luego escriba la consulta de Hive para leer los datos de esta tabla y escriba en su tabla particionada / cubo.

preguntas relacionadas

Apache Hive en un sistema operativo de 32 bits: windows-7, hadoop, cygwin, colmena

¿Cómo puedo usar Python para sobreescribir una tabla DynamoDB desde un archivo S3? - python, amazon-s3, colmena, amazon-dynamodb

¿Necesito Java para ejecutar hadoop en Amazon EC2? - java, php, hadoop, amazon-ec2, amazon-web-services

Colmena - Cargando en la ubicación predeterminada de la tabla externa - colmena, colmena

NO hay datos para la tabla de la colmena creada a partir del esquema avsc - colmena, sqoop

¿Cuál es la contraseña predeterminada de la sección de Amazon EMR? - colmena, amazonas-emr

Colmena: ¿es posible obtener el tamaño total de las partes del archivo en un directorio? - hadoop, colmena, hdfs, hiveql, colmena-udf

Visualización de contenido de la colmena directamente a través de archivos de datos - hadoop, colmena

403 AccessDenied en Amazon S3 eliminar carpeta proctected - hadoop, amazon-s3, amazon-ec2, colmena, emr

Error de ejecución, código de retorno 2 de org.apache.hadoop.hive.ql.exec.mr.MapRedTask - hadoop, colmena, mapreduce, hadoop2

default.fs.name y hive.metastore.warehouse.dir no entran en conflicto - hadoop, apache-hive

Añadiendo archivo Jar - hadoop, jar, colmena, hiveql

Cómo habilitar la marca de tiempo en Hive - hadoop, timestamp, colmena, cloudera, create-table

La colmena arroja un error después de los datos de sqooping: hadoop, colmena, hdfs, sqoop, parquet

XML Serde para Hadoop / Hive - hadoop, colmena

Colmena: cree una tabla a partir de un archivo comprimido - hadoop, colmena, hdfs

Cambiar el directorio de destino en HIVE - hadoop, colmena, bigdata, sqoop, hiveql

En un clúster hadoop, ¿debería instalarse colmena en todos los nodos? - hadoop, cluster-computing, colmena

¿Hive ejecuta hadoop cuando se ejecuta una consulta? - base de datos, hadoop, colmena

¿Cómo ejecuto las consultas de Hive en una plataforma en la nube como AWS? - amazon-web-services, colmena, amazon-emr