Je suis en train d’essayer d’analyserdonnées provenant de gros fichiers texte (plus de 50 Go) utilisant Zeppelin (scala). Les exemples provenant du Web utilisent des fichiers CSV avec des en-têtes et des types de données connus pour chaque colonne. Dans mon cas, j’ai des lignes de données pures avec un "" délimiteur. Comment puis-je mettre mes données dans DataFrame comme dans le code ci-dessous?:
case class Record()
val myFile1 = myFile.map(x=>x.split(";")).map {
case Array(id, name) => Record(id.toInt, name)
}
myFile1.toDF() // DataFrame will have columns "id" and "name"
P.S. Je veux dataframe avec les colonnes "1", "2" ... THX
Réponses:
1 pour la réponse № 1Vous pouvez utiliser CSV:
spark.read.option("delimiter", ";").csv(inputPath)