/ / Hive - crea una tabla desde el archivo zip - hadoop, hive, hdfs

Colmena: cree una tabla a partir de un archivo comprimido - hadoop, colmena, hdfs

Tengo un montón de archivos zip de CSV, de los que quiero crear una tabla Hive. Estoy tratando de averiguar cuál es la mejor manera de hacerlo.

  • Descomprima los archivos, cárguelos en HDFS.
  • ¿Hay una manera de copiar los archivos a HDFS, descomprimir el
  • ¿O hay alguna otra forma mejor / recomendada?

Respuestas

2 para la respuesta № 1

Es una práctica común convertir archivos CSV a tabulaciones separadas o Ctrl A, o Ctrl B delimitadas y luego cargarlas en Hadoop / Hive.

Para cargar archivos en HDFS puede usar el siguiente comando:

hadoop fs -put file_to_uplload hdfs_path

Supongo que te gustaría automatizar esto. En ese caso las siguientes instrucciones serán útiles.

  1. Cree una tabla de subárbol con columnas asignadas a archivos de archivos CSV (puede eliminar campos innecesarios en este paso). Elija su delimitador en hive crear tabla de declaración.

  2. Convertir archivos csv a formato delimitado (Ctrl A o Ctrl B)

  3. Sube archivos a la ubicación de la tabla Hive.

Puede automatizar los pasos utilizando scripts / framework de procesamiento por lotes de Python.

Para leer más: http://wiki.apache.org/hadoop/Hive/GettingStarted