/ / Spark schreibt in S3-Speicheroption:

Spark Write zu S3 Storage Option - Apache-Funke, Amazon-s3

Ich speichere ein Funken-Datenframe im S3-Bucket. Der Standardspeichertyp für die gespeicherte Datei ist STANDARD. Ich brauche es als STANDARD_IA. Was ist die Option, um dies zu erreichen. Ich habe mir die Funken-Quellcodes angesehen und keine solchen Optionen für Spark-DataFrameWriter gefunden https://github.com/apache/spark/blob/branch-2.1/sql/core/src/main/scala/org/apache/spark/sql/DataFrameWriter.scala

Hier ist der Code, den ich verwende, um in S3 zu schreiben:

val df = spark.sql(<sql>)
df.coalesce(1).write.mode("overwrite").parquet(<s3path>)

Bearbeiten: Ich verwende jetzt CopyObjectRequest, um den Speichertyp des erstellten Parketts zu ändern:

val copyObjectRequest = new CopyObjectRequest(bucket, key, bucket, key).withStorageClass(<storageClass>)
s3Client.copyObject(copyObjectRequest)

Antworten:

0 für die Antwort № 1

Nicht möglich mit dem S3A-Stecker. Es steht einem Freiwilligen zur Verfügung mit allen Tests, im HADOOP-12020. FWIW, es sind die Tests, die der schwierigste Teil sein werden. Ich kenne die eigenen Steckverbinder von Amazon nicht.

Warum definieren Sie nicht einfach einen Lebenszyklus für den Eimer und haben die Dinge jede Nacht verschoben?