Aide à la programmation, réponses aux questions / Étincelle apache / Lire le fichier RC pyspark 2.0.0 de S3 avec partitions - apache-spark, amazon-s3, pyspark, spark-dataframe, rc

Lire le fichier RC pyspark 2.0.0 de S3 avec partitions - apache-spark, amazon-s3, pyspark, spark-dataframe, rc

Existe-t-il un moyen de charger des fichiers RC avec partitionnés stockés dans S3 dans pyspark Dataframe 2.0.0

Réponses:

0 pour la réponse № 1

J'ai trouvé un moyen de charger RCFiles (de s3) à pyspark.

from pyspark.sql import HiveContext
spark = SparkSession.builder.master("yarn").appName("elevateDailyJob").enableHiveSupport().getOrCreate()
sc = spark.sparkContext
sqlContext = HiveContext(sc)
sqlContext.sql("CREATE EXTERNAL TABLE table1(col1 string,col2 string,col3 string,)PARTITIONED BY (DAYSERIAL_NUMERIC string) STORED AS RCFILE LOCATION "s3://my-databucket/my_file_rc/"")
df = sqlContext.sql("select * from table1")

ce qui précède peut être exécuté en utilisant spark-submit. Remarque: vous devez activer hivesupport pour EMR version 5.x dans les services (comme je l’ai fait à la deuxième ligne du code).

questions connexes

Comment convertir ArrayType en DenseVector dans PySpark DataFrame? - python, apache-spark, pyspark, apache-spark-mllib, apache-spark-ml

Comment convertir un fichier pyspark.sql.dataframe.DataFrame en une table sql dans databricks notebook - python, sql, apache-spark, pyspark, databricks

Quelles lignes devrais-je ajouter à spark-defaults.conf pour pouvoir utiliser phoenix depuis pyspark? - python, pyspark, hortonworks-data-platform, phoenix

Impossible de se connecter à Mongo depuis pyspark - python, mongodb, pyspark

Erreur pyspark: AttributeError: l'objet 'SparkSession' n'a pas d'attribut 'sérialiseur' - pyspark, pyspark-sql

Spark - comment ignorer ou ignorer les fichiers gzip vides lors de la lecture - pyspark, spark-dataframe, pyspark-sql

Transposer dans Pyspark Dataframe - pandas, pyspark, spark-dataframe

comment déplacer une installation pyspark - macos, pyspark

Comment convertir json en dataframe pyspark (implémentation plus rapide) [dupliquer] - json, pyspark, spark-dataframe, pyspark-sql

Comment charger les dépendances de fichiers dans IPython Notebook - csv, apache-spark, pyspark, jupyter-notebook

Spark: soustrayez deux DataFrames - apache-spark, dataframe, rdd

Recherchez et supprimez les valeurs de colonne correspondantes dans pyspark - apache-spark, pyspark, spark-dataframe, pyspark-sql

Écrire un fichier sparkdataframe dans un fichier .csv dans S3 et choisir un nom dans pyspark - apache-spark, amazon-s3, apache-spark-sql, spark-dataframe, pyspark-sql

Convertir une colonne de données Spark de chaîne en date - apache-spark, spark-dataframe

Est-il possible d'utiliser une implémentation apache-ignite rdd dans pyspark? - apache-spark, pyspark, s'enflammer

pyspark: NameError: le nom 'spark' n'est pas défini - apache-spark, apprentissage automatique, pyspark, calcul distribué, apache-spark-ml

Soumission de travaux Python à déclencher à distance - Apache-spark, pyspark

Conversion de type de colonne PySpark safe - apache-spark, pyspark

Ho pour lire ".gz" fichier compressé en utilisant spark DF ou DS? - apache-spark, apache-spark-sql, étincelle-dataframe, gzip, apache-spark-dataset

PySpark + cahier jupyter - apache-spark, pyspark