/ / Кошер - създаване на таблица от zip файл -

Кошер - създаване на таблица от zip файл - хаоп, кошер, hdfs

Имам куп zip файлове на CSV, които искам да създам кошер таблица от. Опитвам се да разбера кой е най-добрият начин да го направите.

  • Разархивирайте файловете, качете ги на HDFS.
  • Има ли начин да копирате файловете в HDFS, разархивирайте ги
  • Или има ли друг по-добър / препоръчителен начин?

Отговори:

2 за отговор № 1

Най-често срещаната практика е да конвертирате CSV файловете в раздели разделени или Ctrl A, или Ctrl B, и след това да ги качите на Hadoop / Hive.

За да качите файлове в HDFS, можете да използвате следната команда -

huoop fs -put file_to_uplload hdfs_path

Предполагам, че бихте искали да автоматизирате това. В този случай следвайте инструкциите, които ще ви помогнат.

  1. Създайте таблица на кошерите с колони, които се отнасят към файловете на CSV файлове (можете да премахнете ненужните полета на тази стъпка). Изберете разделителя в командата за създаване на кошер.

  2. Конвертирайте CSV файловете в отделен формат (Ctrl A или Ctrl B)

  3. Качване на файлове в местоположението на таблицата на кошера.

Можете да автоматизирате стъпките, като използвате скриптове / рамка за обработка на Python Batch.

За по-нататъшно четене: http://wiki.apache.org/hadoop/Hive/GettingStarted