プログラミングの助け、質問への回答 / Json / Elasticsearch-hadoopでSchemaRDD.saveToES（）を使用してHDFSからJSONのインデックスを作成できない-json、scala、elasticsearch、apache-spark、apache-spark-sql

Elasticsearch-hadoop-json、scala、elasticsearch、apache-spark、apache-spark-sqlでSchemaRDD.saveToES（）を使用してHDFSからJSONをインデックスできません

これはスパーク/スカラーでの私の最初の実際の試みなので、穏やかにしてください。

testというファイルがあります。Sparkを使用して読み取りおよびインデックスを作成しようとしているHDFS上のjson。 saveToES（）関数は実際にjsonで出力をフォーマットするのではなく、RDDの値フィールドを送信するだけだと考えています。

私は間違って何をしていますか？

Spark 1.2.0

Elasticsearch-hadoop 2.1.0.BUILD-20150217

test.json：

{"key":"value"}

スパークシェル：

import org.apache.spark.SparkContext._
import org.elasticsearch.spark._

val sqlContext = new org.apache.spark.sql.SQLContext(sc)
import sqlContext._

val input = sqlContext.jsonFile("hdfs://nameservice1/user/mshirley/test.json")
input.saveToEs("mshirley_spark_test/test")

エラー：

<snip>
org.elasticsearch.hadoop.rest.EsHadoopInvalidRequest: Found unrecoverable error [Bad Request(400) - Invalid JSON fragment received[["value"]][MapperParsingException[failed to parse]; nested: ElasticsearchParseException[Failed to derive xcontent from (offset=13, length=9): [123, 34, 105, 110, 100, 101, 120, 34, 58, 123, 125, 125, 10, 91, 34, 118, 97, 108, 117, 101, 34, 93, 10]]; ]]; Bailing out..
<snip>

入力：

res2: org.apache.spark.sql.SchemaRDD =
SchemaRDD[6] at RDD at SchemaRDD.scala:108
== Query Plan ==
== Physical Plan ==
PhysicalRDD [key#0], MappedRDD[5] at map at JsonRDD.scala:47

input.printSchema（）：

root
|-- key: string (nullable = true)

回答：

回答№1は2

https://github.com/elastic/elasticsearch-hadoop/issues/382

かわった：

import org.elasticsearch.spark._

に：

import org.elasticsearch.spark.sql._

関連する質問

Scalaエラー：値registerTempTableはorg.apache.spark.sql.SchemaRDDのメンバーではありません - scala、apache-spark、apache-spark-sql、parquet

弾性検索で無効なパターンが指定されました - scala、elasticsearch、apache-spark

インテル®IntelliSenseのSparkライブラリ - scala、apache-spark、intellij-idea

spark-javaパッケージScalaからSparkを使用する方法は？ - スカラ、スパーク・ジャワ

SBT - scala、sbtでgit経由で含まれる非SBT依存関係からのクラスへのアクセス

スカラ2.10.4から2.11まで - spaek、eclipse-plugin、apache-spark、apache-spark-sql

elasticsearch-sparkコネクタでsparkからESを読み込む：すべてのフィールドが返されます - scala、apache-spark、elasticsearch、apache-spark-sql

s3 - hadoop、apache-spark、amazon-s3、geospatial、amazon-emrからスパークしてjsonをロードする際の間違ったFS

CDH（cloudera）を使用する利点は何ですか？ [閉じた] - hadoop、bigdata、apache-spark、cloudera、cloudera-cdh

spark.yarn.confが設定されているにもかかわらずアップロードされたsparkアセンブリファイル - hadoop、apache-spark、hdfs、yarn

ハープと弾性サーチと一緒に何をすることができますか？ - hadoop、elasticsearch

SparkでHDFSファイルをテールする方法は？ - hadoop、apache-spark、hdfs、logstash、spark-streaming

Hadoop糸2.7.2クラスタでSpark 1.6.2と2.0.0の両方をサポートする正式な方法はありますか？ - hadoop、apache-spark、糸

Elasticsearch-Hadoopは索引付けされていないデータを取得します - hadoop、elasticsearch、hadoop-streaming、elastic-map-reduce、elasticsearch-hadoop

Kubernetes上のApache SparkのためのElasticsearchのデプロイ - hadoop、elasticsearch、apache-spark、kubernetes、elasticsearch-hadoop

PythonはデータフレームをElasticsearchに向けます - elasticsearch、apache-spark、pyspark、elasticsearch-hadoop

SparkPiの例を実行しようとするとClassNotFoundExceptionが発生する - apache-spark、scala-2.10

Avro構造をSchemaRDDに変換して戻す方法は？ - apache-spark、avro

私が既にHadoopをインストールしている場合は、Apache Spark with Hadoopをダウンロードするか、Hadoopなしでダウンロードする必要がありますか？ - apache-spark、hadoop、hadoop3

Spark s3の読み込みでNullPointerExceptionが返される - amazon-s3、apache-spark