Aide à la programmation, réponses aux questions / Scala / Traiter un fichier texte volumineux avec Zeppelin et Spark - scala, apache-spark, apache-zeppelin, bigdata

Traiter des fichiers texte volumineux avec Zeppelin et Spark - scala, apache-spark, apache-zeppelin, bigdata

Je suis en train d’essayer d’analyserdonnées provenant de gros fichiers texte (plus de 50 Go) utilisant Zeppelin (scala). Les exemples provenant du Web utilisent des fichiers CSV avec des en-têtes et des types de données connus pour chaque colonne. Dans mon cas, j’ai des lignes de données pures avec un "" délimiteur. Comment puis-je mettre mes données dans DataFrame comme dans le code ci-dessous?:

case class Record()

val myFile1 = myFile.map(x=>x.split(";")).map {
case Array(id, name) => Record(id.toInt, name)
}

myFile1.toDF() // DataFrame will have columns "id" and "name"

P.S. Je veux dataframe avec les colonnes "1", "2" ... THX

Réponses:

1 pour la réponse № 1

Vous pouvez utiliser CSV:

spark.read.option("delimiter", ";").csv(inputPath)

questions connexes

Sur Hortonworks Sandbox 2.4, l'utilisation du pilote SQLServer par Spark génère le message «Aucun pilote approprié n'a été trouvé» - serveur SQL, jdbc, apache-spark, plate-forme hortonworks-data, apache-zeppelin

Comment puis-je imprimer un cadre de données dans Zeppelin / Spark / Scala? - scala, apache-spark, apache-zeppelin

Puis-je charger automatiquement les en-têtes csv à partir d'un fichier séparé pour une fenêtre scala spark sur Zeppelin? - scala, csv, apache-spark, apache-zeppelin

Conversion de la structure de données de pandas en RDD en zeppelin - python, apache-spark, apache-zeppelin

Essayer de charger un fichier jar et une classe externe - mysql, jdbc, apache-spark, apache-zeppelin

Configuration Apache Zeppelin avec Spark - linux, ubuntu, apache-spark, apache-zeppelin

Erreur lors de l'importation de packages de visualisation Helium dans Zeppelin - Highcharts, npm, apache-zeppelin

Pourquoi est-ce que je reçois cette exception d'entrée-sortie lorsque j'interroge une table Hive avec SparkSQL dans Zeppelin? - hadoop, apache-spark, ruche, amazon-emr, apache-zeppelin

Qu'est-ce que Apache Zeppelin? [fermé] - hadoop, apache-spark, bigdata, apache-zeppelin

ZEPPELIN: Impossible de trouver ou de charger la classe principale org.apache.zeppelin.server.ZeppelinServer - hadoop, apache-zeppelin

Le chargement d'une Dataframe qui a pris 2 minutes sur Spark-shell prend une longueur indéterminée dans Zeppelin - emr, amazon-emr

Problème lors de l’accès au contexte Zeppelin dans l’interprète Apache Livy pour Zeppelin - apache-zeppelin, livy

Problème lors de l’ajout de dépendances du référentiel local à Apache Livy Interpreter pour Zeppelin - apache-zeppelin, livy

spark dataframe union dataframe dans spark-solr - apache-spark, solr, apache-spark-sql, spark-dataframe

Zeppelin - Problèmes Spark 1.6 avec dépendances - apache-spark, apache-zeppelin

Impossible de connecter Apache Zeppelin avec les nœuds DSE Cassandra Analytics - apache-spark

Comment installer correctement Zeppeling et charger PySpark? - apache-spark, pyspark, apache-zeppelin

Apache Zeppelin pas charger libmesos.so - apache-spark, mesos, mésosphère, apache-zeppelin

Comment définir spark.driver.memory pour Spark / Zeppelin sur les DME - apache-spark, emr, amazon-emr, apache-zeppelin

Comment installer Apache Zeppelin sur le cluster autonome Apache Spark existant - amazon-web-services, apache-spark, bigdata, apache-spark-sql, apache-zeppelin