Pomoc w programowaniu, odpowiedzi na pytania / Jawa / Odczytywanie pliku z archiwum tar.gz w Spark - java, apache-spark

Czytanie pliku z archiwum tar.gz w Spark - java, apache-spark

Mam kilka plików tar.gz, które chciałbym przetworzyć za pomocą Spark bez ich dekompresji.

Jedno archiwum ma około ~ 700 MB i zawiera 10 różnych plików, ale interesuje mnie tylko jeden z nich (czyli około 7 GB po dekompresji).

wiem to context.textFile obsługuje tar.gz, ale nie jestem pewien, czy jest to właściwe narzędzie, gdy archiwum zawiera więcej niż jeden plik. Spowoduje to, że Spark zwróci zawartość wszystkich plików (linia po linii) w archiwum, w tym nazwy plików z danymi binarnymi.

Czy jest jakiś sposób, aby wybrać plik z tar.gz, który chciałbym zmapować?

Odpowiedzi:

1 dla odpowiedzi № 1

AFAIK, sugerowałbym sc.binaryFiles metoda ... patrz poniżej doc. tam, gdzie obecna jest nazwa pliku i zawartość pliku, możesz zmapować i pobrać żądany plik i przetworzyć go.

public RDD<scala.Tuple2<String,PortableDataStream>> binaryFiles(String path,
int minPartitions)

Uzyskaj RDD dla zestawu danych czytelnego dla Hadoop jako PortableDataStream dla każdego pliku (przydatne dla danych binarnych) Na przykład, jeśli masz następujące pliki:

hdfs: // a-hdfs-path / part-00000
hdfs: // a-hdfs-path / part-00001
...
hdfs: // a-hdfs-path / part-nnnnn

Do val rdd = sparkContext.binaryFiles("hdfs://a-hdfs-path"),

następnie rdd zawiera

(a-hdfs-path / part-00000, jego treść)
(a-hdfs-path / part-00001, jego treść)
...
(a-hdfs-path / part-nnnnn, jego zawartość)

Sprawdź również to

Powiązane pytania

Intellisense w Intellij z bibliotekami iskrowymi - scala, apache-spark, intellij-idea

pakiet iskrow-java jak używać Sparka ze Scala? - scala, iskra-java

Zrozumienie zależności między iskrowcami - maven, apache-spark

Jak połączyć Cassandrę ze Spark za pomocą Javy. - Jawa, Kasandra, iskra apache

Wyjątek ClassNotFound Podczas uruchamiania programu java z Apache Spark - java, hadoop, apache-spark, pyspark

Nowość w Spark i Spark SQL z Javą - java, apache-spark, apache-spark-sql, migracja danych, bigdata

Jak sprawdzić, czy Spark jest zainstalowany, czy nie korzysta z kodu Java? - java, apache-spark

Czy plik CSV można przekonwertować na wykres za pomocą GraphX w Javie - java, scala, apache-spark

Link iskierki z iskrowym crunchem zaczynającym się od instancji SparkSession - apache-spark, apache-crunch

Instalacja iskry Apache i db_metastore - apache-spark

Apache iskry bluemix impossible - apache-spark, ibm-cloud

Apache Spark nie widzi całego barana moich maszyn - apache-spark, google-compute-engine, apache-spark-mllib

Apache isc-bigdata [zamknięty] - apache-spark, bigdata

Jak zabić zadanie iskier, jeśli identyfikator aplikacji jest znany? - apache-spark, datastax-enterprise

Spark sql numer_wiersza lub numer kolejny? - apache-spark, apache-spark-sql

Uzyskaj dostęp do webUI Sparka ze zdalnego komputera (do domu)? - iskierka apache

Dlaczego iskrowiące executory strumieniowe zaczynają się w innym czasie? - iskierka apache, strumień iskier, oś czasu

Integracja Arbitralnego uczenia maszynowego Java z Apache Spark - apache-spark, machine-learning, concurrency

Dlaczego Spark wykrywa 8 rdzeni, kiedy mam tylko 4? - apache-iskra, cpu-rdzenie, webui

Ho, aby odczytać skompresowany plik ".gz" za pomocą iskry DF lub DS? - apache-spark, apache-spark-sql, spark-dataframe, gzip, apache-spark-dataset