Ayuda en la programación, respuestas a preguntas / Json / No se puede indexar JSON desde HDFS usando SchemaRDD.saveToES () en Elasticsearch-hadoop - json, scala, elasticsearch, apache-spark, apache-spark-sql

No se puede indexar JSON desde HDFS utilizando SchemaRDD.saveToES () en Elasticsearch-hadoop - json, scala, elasticsearch, apache-spark, apache-spark-sql

Este es mi primer intento real de chispa / escala así que sé gentil.

Tengo un archivo llamado prueba.json en HDFS que estoy tratando de leer e indexar usando Spark. Puedo leer el archivo a través de SQLContext.jsonFile () pero cuando trato de usar SchemaRDD.saveToEs () recibo un fragmento de JSON no válido recibido error. Estoy pensando que la función saveToES () no está formateando realmente la salida en json y en su lugar solo está enviando el campo de valor del RDD.

¿Qué estoy haciendo mal?

Spark 1.2.0

Elasticsearch-hadoop 2.1.0.BUILD-20150217

prueba.json:

{"key":"value"}

chispa:

import org.apache.spark.SparkContext._
import org.elasticsearch.spark._

val sqlContext = new org.apache.spark.sql.SQLContext(sc)
import sqlContext._

val input = sqlContext.jsonFile("hdfs://nameservice1/user/mshirley/test.json")
input.saveToEs("mshirley_spark_test/test")

error:

<snip>
org.elasticsearch.hadoop.rest.EsHadoopInvalidRequest: Found unrecoverable error [Bad Request(400) - Invalid JSON fragment received[["value"]][MapperParsingException[failed to parse]; nested: ElasticsearchParseException[Failed to derive xcontent from (offset=13, length=9): [123, 34, 105, 110, 100, 101, 120, 34, 58, 123, 125, 125, 10, 91, 34, 118, 97, 108, 117, 101, 34, 93, 10]]; ]]; Bailing out..
<snip>

entrada:

res2: org.apache.spark.sql.SchemaRDD =
SchemaRDD[6] at RDD at SchemaRDD.scala:108
== Query Plan ==
== Physical Plan ==
PhysicalRDD [key#0], MappedRDD[5] at map at JsonRDD.scala:47

input.printSchema ():

root
|-- key: string (nullable = true)

Respuestas

2 para la respuesta № 1

https://github.com/elastic/elasticsearch-hadoop/issues/382

cambiado:

import org.elasticsearch.spark._

a:

import org.elasticsearch.spark.sql._

preguntas relacionadas

Error de Scala: el valor registerTempTable no es un miembro de org.apache.spark.sql.SchemaRDD - scala, apache-spark, apache-spark-sql, parquet

El patrón de búsqueda elástica no es válido - scala, elasticsearch, apache-spark

Intellisense en Intellij con bibliotecas de chispas: scala, apache-spark, intellij-idea

chispa-java paquete cómo utilizar Spark de Scala? - scala, chispa-java

Acceso a clases desde dependencias no SBT incluidas a través de git en SBT - scala, sbt

chispa de scala 2.10.4 a 2.11 - scala, eclipse-plugin, apache-spark, apache-spark-sql

Lectura ES de spark con elasticsearch-spark connector: se devuelven todos los campos: scala, apache-spark, elasticsearch, apache-spark-sql

FS incorrecto al cargar json con chispa desde s3 - hadoop, apache-spark, amazon-s3, geoespacial, amazon-emr

¿Cuál es el beneficio de usar CDH (cloudera)? [cerrado] - hadoop, bigdata, apache-spark, cloudera, cloudera-cdh

Archivo de ensamblaje de chispa cargado a pesar de que spark.yarn.conf esté configurado - hadoop, apache-spark, hdfs, hilo

¿Qué puedo hacer con hadoop y elasticsearch juntos? - hadoop, elasticsearch

¿Cómo seguir el archivo HDFS con Spark? - hadoop, apache-spark, hdfs, logstash, spark-streaming

¿Existe alguna forma oficial de admitir Spark 1.6.2 y 2.0.0 en el clúster Hadoop yarn 2.7.2? - hadoop, apache-spark, hilo

Elasticsearch-Hadoop obtiene datos no indexados - hadoop, elasticsearch, hadoop-streaming, elastic-map-reduce, elasticsearch-hadoop

Implementar Elasticsearch for Apache Spark en Kubernetes - hadoop, elasticsearch, apache-spark, kubernetes, elasticsearch-hadoop

Python spark Dataframe to Elasticsearch - elasticsearch, apache-spark, pyspark, elasticsearch-hadoop

ClassNotFoundException al intentar ejecutar el ejemplo de SparkPi - apache-spark, scala-2.10

¿Cómo convertir la estructura de Avro a SchemaRDD y volver? - apache-spark, avro

Si ya tengo Hadoop instalado, ¿debería descargar Apache Spark WITH Hadoop o WITHOUT Hadoop? - apache-spark, hadoop, hadoop3

Spark s3 read da NullPointerException - amazon-s3, apache-spark