Hilfe bei der Programmierung, Antworten auf Fragen / Apache Funken / Spark schreibt in S3-Speicheroption:

Spark Write zu S3 Storage Option - Apache-Funke, Amazon-s3

Ich speichere ein Funken-Datenframe im S3-Bucket. Der Standardspeichertyp für die gespeicherte Datei ist STANDARD. Ich brauche es als STANDARD_IA. Was ist die Option, um dies zu erreichen. Ich habe mir die Funken-Quellcodes angesehen und keine solchen Optionen für Spark-DataFrameWriter gefunden https://github.com/apache/spark/blob/branch-2.1/sql/core/src/main/scala/org/apache/spark/sql/DataFrameWriter.scala

Hier ist der Code, den ich verwende, um in S3 zu schreiben:

val df = spark.sql(<sql>)
df.coalesce(1).write.mode("overwrite").parquet(<s3path>)

Bearbeiten: Ich verwende jetzt CopyObjectRequest, um den Speichertyp des erstellten Parketts zu ändern:

val copyObjectRequest = new CopyObjectRequest(bucket, key, bucket, key).withStorageClass(<storageClass>)
s3Client.copyObject(copyObjectRequest)

Antworten:

0 für die Antwort № 1

Nicht möglich mit dem S3A-Stecker. Es steht einem Freiwilligen zur Verfügung mit allen Tests, im HADOOP-12020. FWIW, es sind die Tests, die der schwierigste Teil sein werden. Ich kenne die eigenen Steckverbinder von Amazon nicht.

Warum definieren Sie nicht einfach einen Lebenszyklus für den Eimer und haben die Dinge jede Nacht verschoben?

Verwandte Fragen

Spark AMI für AWS EC-2 - Amazon.de: Amazon.de: Amazon.de: Amazon.de: Amazon.de: Amazon.de: Amazon.de: Amazon.de: Amazon.de: Amazon.de: Amazon.de: Amazon.de: Amazon.de: Amazon

Senden von Daten von meinem Funkencode zu Rotverschiebung - Scala, Apache-Spark, Amazon-Redshift

Intellisense in Intellij mit Funkenbibliotheken - Scala, Apache-Spark, Intellij-Idee

Spark-Maven Abhängigkeitsverständnis - Maven, Apache-Funke

Neu in Spark und Spark SQL mit Java - Java, Apache-Spark, Apache-Spark-SQL, Datenmigration, BigData

Wie viele RDDs im Cache Spark - Apache-Spark

Link Crunch Spark Pipeline mit Spark-Anwendung beginnend mit SparkSession-Instanz - Apache-Funke, Apache-Crunch

Apache Funke bluemix unmöglich - Apache-Funke, IBM-Wolke

Apache Spark sieht nicht alle Ram meiner Maschinen - Apache-Spark, Google-Compute-Engine, Apache-Spark-MLLIB

Wie man einen Funkenjob tötet, wenn Anwendungsidentifikation bekannt ist? - Apache-Spark, Datastax-Unternehmen

Wie viele Konsumenten startet Spark für Kinesis-Stream? - Apache-Funke, Funkenströmung, Amazon-Kinesis

Konfigurationseinstellungen überschreiben, wenn ein Fettglas für Funken auf EMR verwendet wird - apache-spark, amazon-emr, typesafe-config

Spark SQL Zeilennummer oder Sequenznummer? - Apache-Funke, Apache-Spark-Sql

Zugriff auf die WebUI von Spark von einem Remote-Computer aus (Home)? - Apache-Funken

Wie man spark.driver.memory für Spark / Zeppelin auf EMR setzt - apache-funke, emr, amazon-emr, apache-zeppelin

spark-submit funktioniert nicht mit Python-Datei - Apache-Funke

Warum erkennt Spark 8 Kerne, wenn ich nur 4 habe? - Apache-Spark, CPU-Kerne, Webui

Ho, um ".gz" komprimierte Datei zu lesen, die Funken DF oder DS verwendet? - apache-spark, apache-spark-sql, Spark-Datenframe, gzip, Apache-Spark-Datensatz

Wie man Spark im lokalen Modus auf Amazon EC2 konfiguriert, um die IAM-Regeln für S3 zu verwenden - amazon-s3, amazon-ec2, apache-spark-2.0

Wie installiert man Apache Zeppelin auf bestehenden Apache Spark Standalone-Cluster - Amazon-Web-Services, Apache-Spark, Big Data, Apache-Spark-SQL, Apache-Zeppelin