/ / Lire le fichier RC pyspark 2.0.0 de S3 avec partitions - apache-spark, amazon-s3, pyspark, spark-dataframe, rc

Lire le fichier RC pyspark 2.0.0 de S3 avec partitions - apache-spark, amazon-s3, pyspark, spark-dataframe, rc

Existe-t-il un moyen de charger des fichiers RC avec partitionnés stockés dans S3 dans pyspark Dataframe 2.0.0

Réponses:

0 pour la réponse № 1

J'ai trouvé un moyen de charger RCFiles (de s3) à pyspark.

from pyspark.sql import HiveContext
spark = SparkSession.builder.master("yarn").appName("elevateDailyJob").enableHiveSupport().getOrCreate()
sc = spark.sparkContext
sqlContext = HiveContext(sc)
sqlContext.sql("CREATE EXTERNAL TABLE table1(col1 string,col2 string,col3 string,)PARTITIONED BY (DAYSERIAL_NUMERIC string) STORED AS RCFILE LOCATION "s3://my-databucket/my_file_rc/"")
df = sqlContext.sql("select * from table1")

ce qui précède peut être exécuté en utilisant spark-submit. Remarque: vous devez activer hivesupport pour EMR version 5.x dans les services (comme je l’ai fait à la deuxième ligne du code).