Имам куп zip файлове на CSV, които искам да създам кошер таблица от. Опитвам се да разбера кой е най-добрият начин да го направите.
- Разархивирайте файловете, качете ги на HDFS.
- Има ли начин да копирате файловете в HDFS, разархивирайте ги
- Или има ли друг по-добър / препоръчителен начин?
Отговори:
2 за отговор № 1Най-често срещаната практика е да конвертирате CSV файловете в раздели разделени или Ctrl A, или Ctrl B, и след това да ги качите на Hadoop / Hive.
За да качите файлове в HDFS, можете да използвате следната команда -
huoop fs -put file_to_uplload hdfs_path
Предполагам, че бихте искали да автоматизирате това. В този случай следвайте инструкциите, които ще ви помогнат.
Създайте таблица на кошерите с колони, които се отнасят към файловете на CSV файлове (можете да премахнете ненужните полета на тази стъпка). Изберете разделителя в командата за създаване на кошер.
Конвертирайте CSV файловете в отделен формат (Ctrl A или Ctrl B)
- Качване на файлове в местоположението на таблицата на кошера.
Можете да автоматизирате стъпките, като използвате скриптове / рамка за обработка на Python Batch.
За по-нататъшно четене: http://wiki.apache.org/hadoop/Hive/GettingStarted