/ / Прочитайте RC файл pyspark 2.0.0 з S3 з розділами - apache-spark, amazon-s3, pyspark, spark-dataframe, rc

Читайте RC-файл pyspark 2.0.0 з S3 з розділами - apache-spark, amazon-s3, pyspark, spark-dataframe, rc

Чи є спосіб, що ми можемо завантажити RC-файли з розділеними в S3 розділеними файлами в pyspark Dataframe 2.0.0

Відповіді:

0 для відповіді № 1

Я придумав спосіб завантаження RCFiles (від s3) до pyspark.

from pyspark.sql import HiveContext
spark = SparkSession.builder.master("yarn").appName("elevateDailyJob").enableHiveSupport().getOrCreate()
sc = spark.sparkContext
sqlContext = HiveContext(sc)
sqlContext.sql("CREATE EXTERNAL TABLE table1(col1 string,col2 string,col3 string,)PARTITIONED BY (DAYSERIAL_NUMERIC string) STORED AS RCFILE LOCATION "s3://my-databucket/my_file_rc/"")
df = sqlContext.sql("select * from table1")

вищезазначене можна виконати за допомогою іскрової подачі. Примітка: вам потрібно включити hivesupport для EMR версії 5.x на палатах (як я це робив у другому рядку коду.