JSONに10(または10億)のイベントを書き込み、ファイルとして保存したいと思います。
私はScalaのDatabricksノートに書いています。 JSON文字列に "Carbs"のようなフィールドに対してランダムに生成された値を持たせたいです。
{"Username": "patient1", "Carbs": 92, "Bolus": 24, "Basal": 1.33, "Date": 2017-06-28, "Timestamp": 2017-06-28 21:59:...}
私は首尾よくArray()に日付を書いてそれからJSONファイルとして保存するのに以下を使用しました。
val dateDF = spark.range(10)
.withColumn("today", current_date())
しかし、ランダムな値を配列に書き込んでからその配列をJSONファイルとして保存するための最良の方法は何ですか?
回答:
回答№1は0RDDをデータフレームに変換してからjsonフォーマットとして保存する
dataframe.write.mode("append").json(path)