Aide à la programmation, réponses aux questions / Json / Impossible d’indexer JSON à partir de HDFS avec SchemaRDD.saveToES () dans Elasticsearch-hadoop - json, scala, elasticsearch, apache-spark, apache-spark-sql

Impossible d'indexer JSON à partir de HDFS à l'aide de SchemaRDD.saveToES () dans Elasticsearch-hadoop - json, scala, elasticsearch, apache-spark, apache-spark-sql

C’est ma première véritable tentative d’étincelle / scala, alors soyez gentil.

J'ai un fichier appelé test.json sur HDFS que je "tente de lire et d’indexer avec Spark. Je peux lire le fichier via SQLContext.jsonFile () mais lorsque je tente d’utiliser SchemaRDD.saveToEs (), je reçois une erreur de fragment JSON non valide. Je pense que la fonction saveToES () n’est pas en train de formater la sortie en json, mais plutôt d’envoyer le champ de valeur du RDD.

Qu'est-ce que je fais mal?

Spark 1.2.0

Elasticsearch-hadoop 2.1.0.BUILD-20150217

test.json:

{"key":"value"}

coquille d'allumage:

import org.apache.spark.SparkContext._
import org.elasticsearch.spark._

val sqlContext = new org.apache.spark.sql.SQLContext(sc)
import sqlContext._

val input = sqlContext.jsonFile("hdfs://nameservice1/user/mshirley/test.json")
input.saveToEs("mshirley_spark_test/test")

Erreur:

<snip>
org.elasticsearch.hadoop.rest.EsHadoopInvalidRequest: Found unrecoverable error [Bad Request(400) - Invalid JSON fragment received[["value"]][MapperParsingException[failed to parse]; nested: ElasticsearchParseException[Failed to derive xcontent from (offset=13, length=9): [123, 34, 105, 110, 100, 101, 120, 34, 58, 123, 125, 125, 10, 91, 34, 118, 97, 108, 117, 101, 34, 93, 10]]; ]]; Bailing out..
<snip>

contribution:

res2: org.apache.spark.sql.SchemaRDD =
SchemaRDD[6] at RDD at SchemaRDD.scala:108
== Query Plan ==
== Physical Plan ==
PhysicalRDD [key#0], MappedRDD[5] at map at JsonRDD.scala:47

input.printSchema ():

root
|-- key: string (nullable = true)

Réponses:

2 pour la réponse № 1

https://github.com/elastic/elasticsearch-hadoop/issues/382

modifié:

import org.elasticsearch.spark._

à:

import org.elasticsearch.spark.sql._

questions connexes

Erreur Scala: la valeur registerTempTable n'est pas membre d'org.apache.spark.sql.SchemaRDD - scala, apache-spark, apache-spark-sql, parquet

Elastic Search Motif non valide étant donné - scala, elasticsearch, apache-spark

Intellisense dans Intellij avec les bibliothèques d'étincelles - scala, apache-spark, intellij-idea

package spark-java comment utiliser Spark de Scala? - scala, spark-java

Accéder aux classes de dépendances non-SBT incluses via git dans SBT - scala, sbt

spark de scala 2.10.4 à 2.11 - scala, eclipse-plugin, apache-spark, apache-spark-sql

Lecture de ES avec spark avec elasticsearch-spark: tous les champs sont renvoyés - scala, apache-spark, elasticsearch, apache-spark-sql

Wrong FS lors du chargement de json avec une étincelle de s3 - hadoop, apache-spark, amazon-s3, géospatial, amazon-emr

Quel est l'avantage d'utiliser CDH (cloudera)? [fermé] - hadoop, bigdata, apache-spark, cloudera, cloudera-cdh

Fichier d'assemblage Spark téléchargé malgré le réglage de spark.yarn.conf - hadoop, apache-spark, hdfs, yarn

Que puis-je faire avec hadoop et elasticsearch ensemble? - hadoop, elasticsearch

Comment queue fichier HDFS avec Spark? - hadoop, apache-spark, hdfs, logstash, spark-streaming

Existe-t-il un moyen officiel de prendre en charge à la fois Spark 1.6.2 et 2.0.0 sur le cluster Hadoop yarn 2.7.2? - hadoop, apache-spark, fil

Elasticsearch-Hadoop get Données non indexées - hadoop, elasticsearch, hadoop-streaming, elastic-map-reduction, elasticsearch-hadoop

Déployez Elasticsearch pour Apache Spark sur Kubernetes - hadoop, elasticsearch, apache-spark, kubernetes, elasticsearch-hadoop

Python spark Dataframe to Elasticsearch - elasticsearch, apache-spark, pyspark, elasticsearch-hadoop

ClassNotFoundException lors de l'exécution de l'exemple SparkPi - apache-spark, scala-2.10

Comment convertir la structure d'Avro en SchemaRDD et vice-versa? - apache-spark, avro

Si Hadoop est déjà installé, devrais-je télécharger Apache Spark WITH Hadoop ou WITHOUT Hadoop? - apache-spark, hadoop, hadoop3

Spark s3 read donne NullPointerException - amazon-s3, apache-spark