Чи є спосіб, що ми можемо завантажити RC-файли з розділеними в S3 розділеними файлами в pyspark Dataframe 2.0.0
Відповіді:
0 для відповіді № 1Я придумав спосіб завантаження RCFiles (від s3) до pyspark.
from pyspark.sql import HiveContext
spark = SparkSession.builder.master("yarn").appName("elevateDailyJob").enableHiveSupport().getOrCreate()
sc = spark.sparkContext
sqlContext = HiveContext(sc)
sqlContext.sql("CREATE EXTERNAL TABLE table1(col1 string,col2 string,col3 string,)PARTITIONED BY (DAYSERIAL_NUMERIC string) STORED AS RCFILE LOCATION "s3://my-databucket/my_file_rc/"")
df = sqlContext.sql("select * from table1")
вищезазначене можна виконати за допомогою іскрової подачі. Примітка: вам потрібно включити hivesupport для EMR версії 5.x на палатах (як я це робив у другому рядку коду.