Existe-t-il un moyen de charger des fichiers RC avec partitionnés stockés dans S3 dans pyspark Dataframe 2.0.0
Réponses:
0 pour la réponse № 1J'ai trouvé un moyen de charger RCFiles (de s3) à pyspark.
from pyspark.sql import HiveContext
spark = SparkSession.builder.master("yarn").appName("elevateDailyJob").enableHiveSupport().getOrCreate()
sc = spark.sparkContext
sqlContext = HiveContext(sc)
sqlContext.sql("CREATE EXTERNAL TABLE table1(col1 string,col2 string,col3 string,)PARTITIONED BY (DAYSERIAL_NUMERIC string) STORED AS RCFILE LOCATION "s3://my-databucket/my_file_rc/"")
df = sqlContext.sql("select * from table1")
ce qui précède peut être exécuté en utilisant spark-submit. Remarque: vous devez activer hivesupport pour EMR version 5.x dans les services (comme je l’ai fait à la deuxième ligne du code).