Hilfe bei der Programmierung, Antworten auf Fragen / Json / Es ist nicht möglich, JSON von HDFS mithilfe von SchemaRDD.saveToES () in Elasticsearch-hadoop-json, scala, elasticsearch, apache-spark, apache-spark-sql zu indizieren

Nicht in der Lage, JSON aus HDFS mit SchemaRDD.saveToES () in Elasticsearch-hadoop zu indexieren - json, scala, elasticsearch, apache-spark, apache-spark-sql

Dies ist mein erster echter Versuch in Funken / Scala, also sei vorsichtig.

Ich habe eine Datei namens test.json auf HDFS, das ich mit Spark zu lesen und zu indizieren versuche. Ich bin in der Lage, die Datei über SQLContext.jsonFile () zu lesen, aber wenn ich versuche, SchemaRDD.saveToEs () zu verwenden, erhalte ich einen ungültigen JSON-Fragment-Fehler. Ich denke, die saveToES () - Funktion formatiert die Ausgabe nicht wirklich in json und sendet stattdessen nur das Wertefeld der RDD.

Was mache ich falsch?

Spark 1.2.0

Elasticsearch-hadoop 2.1.0.BUILD-20150217

test.json:

{"key":"value"}

Funkenschale:

import org.apache.spark.SparkContext._
import org.elasticsearch.spark._

val sqlContext = new org.apache.spark.sql.SQLContext(sc)
import sqlContext._

val input = sqlContext.jsonFile("hdfs://nameservice1/user/mshirley/test.json")
input.saveToEs("mshirley_spark_test/test")

Error:

<snip>
org.elasticsearch.hadoop.rest.EsHadoopInvalidRequest: Found unrecoverable error [Bad Request(400) - Invalid JSON fragment received[["value"]][MapperParsingException[failed to parse]; nested: ElasticsearchParseException[Failed to derive xcontent from (offset=13, length=9): [123, 34, 105, 110, 100, 101, 120, 34, 58, 123, 125, 125, 10, 91, 34, 118, 97, 108, 117, 101, 34, 93, 10]]; ]]; Bailing out..
<snip>

Eingang:

res2: org.apache.spark.sql.SchemaRDD =
SchemaRDD[6] at RDD at SchemaRDD.scala:108
== Query Plan ==
== Physical Plan ==
PhysicalRDD [key#0], MappedRDD[5] at map at JsonRDD.scala:47

input.printSchema ():

root
|-- key: string (nullable = true)

Antworten:

2 für die Antwort № 1

https://github.com/elastic/elasticsearch-hadoop/issues/382

geändert:

import org.elasticsearch.spark._

zu:

import org.elasticsearch.spark.sql._

Verwandte Fragen

Scala Error: value registerTempTable ist kein Mitglied von org.apache.spark.sql.SchemaRDD - scala, apache-spark, apache-spark-sql, Parkett

Elastische Suche Ungültiges Muster Gegeben - scala, elasticsearch, apache-spark

Intellisense in Intellij mit Funkenbibliotheken - Scala, Apache-Spark, Intellij-Idee

Spark-Java-Paket wie Spark von Scala zu verwenden? - Scala, Funken-Java

Zugreifen auf Klassen aus Nicht-SBT-Abhängigkeiten, die über Git in SBT enthalten sind - scala, sbt

Funken von Scala 2.10.4 bis 2.11 - Scala, Eclipse-Plugin, Apache-Funke, Apache-Spark-Sql

ES aus Funken mit Elasticsearch-Spark-Anschluss lesen: Alle Felder werden zurückgegeben - Scala, Apache-Spark, Elasticsearch, Apache-Spark-SQL

Falsche FS beim Laden von JSON mit Funken von s3 - Hadoop, Apache-Spark, Amazon-s3, Geospatial, Amazon-emr

Welchen Nutzen hat CDH (Cloudera)? [geschlossen] - Hadoop, Bigdata, Apache-Funke, Cloudera, Cloudera-Cdh

Spark Assembly Datei wird hochgeladen, obwohl spark.yarn.conf gesetzt wurde - hadoop, apache-spark, hdfs, yarn

was kann ich mit hadoop und elasticsearch zusammen machen? - Hadoop, elasticsearch

Wie schalte ich HDFS-Dateien mit Spark? - hadoop, apache-spark, hdfs, logstash, spark-streaming

Gibt es eine offizielle Möglichkeit, Spark 1.6.2 und 2.0.0 auf Hadoop Garn 2.7.2 Cluster zu unterstützen? - Hadoop, Apache-Spark, Garn

Elasticsearch-Hadoop erhält nicht indizierte Daten - Hadoop, Elasticsearch, Hadoop-Streaming, Elastic-Map-Reduce, Elasticsearch-Hadoop

Bereitstellen von Elasticsearch für Apache Spark auf Kubernetes - Hadoop, Elasticsearch, Apache-Spark, Kubernetes, Elasticsearch-Hadoop

Python funken Dataframe zu Elasticsearch - Elasticsearch, Apache-Spark, Pyspark, Elasticsearch-Hadoop

ClassNotFoundException beim Versuch, das SparkPi-Beispiel auszuführen - apache-spark, scala-2.10

Wie konvertiert man Avro-Struktur in SchemaRDD und zurück? - Apache-Funke, Avro

Wenn ich Hadoop bereits installiert habe, sollte ich Apache Spark WITH Hadoop oder OHOUT Hadoop herunterladen? - Apache-Funke, Hadoop, Hadoop3

Spark S3 liest gibt NullPointerException - Amazon-s3, Apache-Funke