Je voudrais écrire dix (ou un milliard) d'événements au format JSON et les enregistrer sous forme de fichiers.
J'écris dans un cahier Databricks à Scala. Je souhaite que la chaîne JSON génère des valeurs générées aléatoirement pour des champs tels que "Glucides":
{"Username": "patient1", "Carbs": 92, "Bolus": 24, "Basal": 1.33, "Date": 2017-06-28, "Timestamp": 2017-06-28 21:59:...}
J'ai utilisé avec succès les éléments suivants pour écrire la date dans un Array (), puis l'enregistrer en tant que fichier JSON.
val dateDF = spark.range(10)
.withColumn("today", current_date())
Mais quel est le meilleur moyen d'écrire des valeurs aléatoires dans un tableau, puis d'enregistrer le tableau en tant que fichier JSON?
Réponses:
0 pour la réponse № 1Vous convertissez RDD en dataframe puis enregistrez au format json sous
dataframe.write.mode("append").json(path)