Pomoc w programowaniu, odpowiedzi na pytania / Hadoop / Hive - Czy można uzyskać całkowity rozmiar części plików w katalogu? - hadoop, hive, hdfs, hiveql, hive-udf

Hive - Czy można uzyskać całkowity rozmiar części plików w katalogu? - hadoop, hive, hdfs, hiveql, hive-udf

Tło:

Mam kilka plików gzip w katalogu HDFS. Pliki te mają nazwy w formacie rrrr-mm-dd-000001.gz, rrrr-mm-dd-000002.gz i tak dalej.

Cel:

Chcę zbudować skrypt ulowy, który tworzy tabelę z kolumnami: Kolumna 1 - data (rrrr-mm-dd), Kolumna 2 - całkowity rozmiar pliku.

Mówiąc konkretnie, chciałbym podsumować rozmiary wszystkich plików gzip dla konkretnej daty. Suma będzie wartością w kolumnie 2 i datą w kolumnie 1.

czy to możliwe? Czy są jakieś wbudowane funkcje lub UDF, które mogą mi pomóc w moim przypadku użycia?

Z góry dziękuję!

Odpowiedzi:

0 dla odpowiedzi № 1

Zadanie MapReduce do tego nie wydaje się skuteczne, ponieważ nie musisz ładować żadnych danych. Dodatkowo zrobienie tego wydaje się niezręczne w Hive.

Czy możesz napisać skrypt bash lub skrypt Pythona lub coś podobnego do parsowania danych wyjściowych hadoop fs -ls? Wyobrażam sobie coś takiego:

$ hadoop fs -ls mydir/*gz | python datecount.py | hadoop fs -put - counts.txt

Powiązane pytania

Apache Hive w 32-bitowym systemie operacyjnym - Windows-7, hadoop, cygwin, hive

Budowa Apache Hive - niemożliwe do rozwiązania zależności - java, mrówka, hadoop, bluszcz, ul

Java i Hive: uruchom skrypt hql - java, hive, hiveql

Hive - Ładowanie do domyślnej lokalizacji zewnętrznego stołu - ul, hiveql

Wątpliwości dotyczące wstawiania i aktualizacji tabeli zewnętrznej Hive - ul, hdfs, hiveql

Pliki zapytań Hadoop Hive z pliku hdfs - hbase, hive, hdfs

rozmiar katalogu hadoop hdfs pokazany jako 0 - hadoop, hdfs

Hive Query - Eksport do mojego komputera - hadoop, ul, hiveql

Błąd wykonania, kod powrotu 2 z org.apache.hadoop.hive.ql.exec.mr.MapRedTask - hadoop, hive, mapreduce, hadoop2

default.fs.name i hive.metastore.warehouse.dir nie powodują konfliktów - hadoop, apache-hive

Dodawanie pliku Jar - hadoop, jar, hive, hiveql

Jak włączyć sygnaturę czasową w Hive - hadoop, timestamp, hive, cloudera, create-table

Hive rzuca błąd po danych sqooping - hadoop, hive, hdfs, sqoop, parquet

jaka jest różnica między Hive a Cascading Lingual - hadoop, hive, cascading

Hive - utwórz tabelę z pliku zip - hadoop, hive, hdfs

Czy mogę użyć funkcji llap z ulem 1.2.1000 w hdp 2.6? - hadoop, ul

Pewne wątpliwości na HDFS, HBase i Hive - hadoop, ul, hdfs

Zmiana katalogu Target w HIVE - hadoop, hive, bigdata, sqoop, hiveql

Problemy podczas próby załadowania usługi hwi w hive-1.1.0? - hadoop, ul

W klastrze hadoop, czy powinien on być zainstalowany na wszystkich węzłach? - hadoop, klastry komputerowe, ul