Tengo un montón de archivos zip de CSV, de los que quiero crear una tabla Hive. Estoy tratando de averiguar cuál es la mejor manera de hacerlo.
- Descomprima los archivos, cárguelos en HDFS.
- ¿Hay una manera de copiar los archivos a HDFS, descomprimir el
- ¿O hay alguna otra forma mejor / recomendada?
Respuestas
2 para la respuesta № 1Es una práctica común convertir archivos CSV a tabulaciones separadas o Ctrl A, o Ctrl B delimitadas y luego cargarlas en Hadoop / Hive.
Para cargar archivos en HDFS puede usar el siguiente comando:
hadoop fs -put file_to_uplload hdfs_path
Supongo que te gustaría automatizar esto. En ese caso las siguientes instrucciones serán útiles.
Cree una tabla de subárbol con columnas asignadas a archivos de archivos CSV (puede eliminar campos innecesarios en este paso). Elija su delimitador en hive crear tabla de declaración.
Convertir archivos csv a formato delimitado (Ctrl A o Ctrl B)
- Sube archivos a la ubicación de la tabla Hive.
Puede automatizar los pasos utilizando scripts / framework de procesamiento por lotes de Python.
Para leer más: http://wiki.apache.org/hadoop/Hive/GettingStarted