Chcę odczytać wiersze danych z jednego z gałęzitabeli w programie Spark-Scala. Następnie te same dane muszą być zapisywane w pliku wiersz po wierszu. Właściwie zapisz do pliku wiersz po rzędzie. Czy ktoś mógłby udostępnić wskaźniki? Wersja Spark 1.6, Hive 1.2.
Odpowiedzi:
0 dla odpowiedzi № 1Możesz czytać ze stołu tak ...
val mydf = hiveContext.sql("select * from hive_table_name")
mydf.write.save.format("com.databricks.spark.csv").option("header", "true").save(hdfs_path_to_save)
tutaj jest pomoc z parserem csv, którego potrzebujesz, jeśli jest on wcześniejszy niż Spark 2.0 https://github.com/databricks/spark-csv