/ / Traiter un fichier texte volumineux avec Zeppelin et Spark - scala, apache-spark, apache-zeppelin, bigdata

Traiter des fichiers texte volumineux avec Zeppelin et Spark - scala, apache-spark, apache-zeppelin, bigdata

Je suis en train d’essayer d’analyserdonnées provenant de gros fichiers texte (plus de 50 Go) utilisant Zeppelin (scala). Les exemples provenant du Web utilisent des fichiers CSV avec des en-têtes et des types de données connus pour chaque colonne. Dans mon cas, j’ai des lignes de données pures avec un "" délimiteur. Comment puis-je mettre mes données dans DataFrame comme dans le code ci-dessous?:

case class Record()

val myFile1 = myFile.map(x=>x.split(";")).map {
case Array(id, name) => Record(id.toInt, name)
}

myFile1.toDF() // DataFrame will have columns "id" and "name"

P.S. Je veux dataframe avec les colonnes "1", "2" ... THX

Réponses:

1 pour la réponse № 1

Vous pouvez utiliser CSV:

spark.read.option("delimiter", ";").csv(inputPath)