Aiuto nella programmazione, risposte alle domande / MongoDB / pyspark-mongodb collection non verrà eseguito il comando - mongodb, apache-spark, pyspark

il comando di lettura della collezione pyspark-mongodb non verrà eseguito - mongodb, apache-spark, pyspark

Ho installato le seguenti versioni: - scintilla 2.1.0, scala 2.11.6, mongoDB 3.2.17

Ho provato ad avviare la shell pyspark con il seguente comando

./bin/pyspark --packages org.mongodb.spark:mongo-spark-connector_2.11:2.2.0

dopo questo ho iniziato la sessione di scintille come segue

from pyspark.sql import SparkSession
my_spark = SparkSession.builder.appName("myApp").config("spark.mongodb.input.uri", "mongodb://127.0.0.1/mycollection.dummy").config("spark.mongodb.output.uri", "mongodb://127.0.0.1/mycollection.dummy").getOrCreate()

Ho eseguito la scrittura su una raccolta in mongodb db e si sta eseguendo con successo

ma, quando provo a leggere la raccolta usando il comando

df = my_spark.read.format("com.mongodb.spark.sql.DefaultSource").option("uri","mongodb://127.0.0.1/mycollection.dummy").load()

sta mostrando errore come segue

17/10/13 10:43:33 ERROR executor.Executor: Exception in task 0.0 in stage 2.0 (TID 2) java.lang.NoSuchMethodError: org.apache.spark.sql.catalyst.analysis.TypeCoercion$.findTightestCommonType()Lscala/Function2; at com.mongodb.spark.sql.MongoInferSchema$.com$mongodb$spark$sql$MongoInferSchema$$compatibleType(MongoInferSchema.scala:135) at com.mongodb.spark.sql.MongoInferSchema$$anonfun$3.apply(MongoInferSchema.scala:78) at com.mongodb.spark.sql.MongoInferSchema$$anonfun$3.apply(MongoInferSchema.scala:78) at scala.collection.TraversableOnce$$anonfun$foldLeft$1.apply(TraversableOnce.scala:157) at scala.collection.TraversableOnce$$anonfun$foldLeft$1.apply(TraversableOnce.scala:157) at scala.collection.Iterator$class.foreach(Iterator.scala:893) at scala.collection.AbstractIterator.foreach(Iterator.scala:1336) at scala.collection.TraversableOnce$class.foldLeft(TraversableOnce.scala:157) at scala.collection.AbstractIterator.foldLeft(Iterator.scala:1336) at scala.collection.TraversableOnce$class.aggregate(TraversableOnce.scala:214) at scala.collection.AbstractIterator.aggregate(Iterator.scala:1336) at org.apache.spark.rdd.RDD$$anonfun$treeAggregate$1$$anonfun$24.apply(RDD.scala:1135) at org.apache.spark.rdd.RDD$$anonfun$treeAggregate$1$$anonfun$24.apply(RDD.scala:1135) at org.apache.spark.rdd.RDD$$anonfun$treeAggregate$1$$anonfun$25.apply(RDD.scala:1136) at org.apache.spark.rdd.RDD$$anonfun$treeAggregate$1$$anonfun$25.apply(RDD.scala:1136) at org.apache.spark.rdd.RDD$$anonfun$mapPartitions$1$$anonfun$apply$23.apply(RDD.scala:796) at org.apache.spark.rdd.RDD$$anonfun$mapPartitions$1$$anonfun$apply$23.apply(RDD.scala:796) at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:38) at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:323) at org.apache.spark.rdd.RDD.iterator(RDD.scala:287) at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:87) at org.apache.spark.scheduler.Task.run(Task.scala:99) at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:282) at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149) at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624) at java.lang.Thread.run(Thread.java:748)

risposte:

0 per risposta № 1

Sembra che tu abbia un'incongruenza nella riga di lettura del dataframe. Prima di tutto, inizializzi my_spark, ma poi usare spark. Anche tu usi "uri", invece di "spark.mongodb.input.uri". Prova questo di seguito:

df = my_spark.read.format("com.mongodb.spark.sql.DefaultSource").option("spark.mongodb.input.uri","mongodb://127.0.0.1/mycollection.dummy").load()

Altrimenti fornire più codice da verificare nel suo complesso.

domande correlate

Carica una query SQl in pyspark? - sql, oracle, pyspark, pyspark-sql

Aggiungi jar a pyspark quando usi notebook: python, jar, apache-spark, ipython-notebook, pyspark

Come posso convertire un file pyspark.sql.dataframe.DataFrame su una tabella sql in un taccuino databricks - python, sql, apache-spark, pyspark, databricks

Analisi Pca con PySpark - python, csv, pyspark, analisi, bigdata

Pyspark-Mongo manca alcuni campi - python, mongodb, pyspark

Impossibile connettersi a Mongo da pyspark - python, mongodb, pyspark

Problemi di installazione di Spark - python-3.x, apache-spark, pyspark

errore pyspark: AttributeError: l'oggetto 'SparkSession' non ha attributo 'serializzatore' - pyspark, pyspark-sql

come spostare un'installazione di pyspark - macos, pyspark

Allenare un modello SVC non lineare utilizzando Pyspark: machine-learning, pyspark, bigdata, svm, apache-spark-mllib

Come convertire json in pyspark dataframe (implementazione più veloce) [duplicato] - json, pyspark, spark-dataframe, pyspark-sql

Come caricare le dipendenze di jar in IPython Notebook: csv, apache-spark, pyspark, jupyter-notebook, pyspark-sql

Spark semplicemente non iniziare - apache-spark, pyspark

Leggi RC File pyspark 2.0.0 da S3 con partizioni - apache-spark, amazon-s3, pyspark, spark-dataframe, rc

È possibile utilizzare un'implementazione rdd di apache-ignite in pyspark? - apache-spark, pyspark, ignite

Ricevo IllegalArgumentException durante la creazione di SparkSession - apache-spark, pyspark, pyspark-sql

pyspark: NameError: nome 'spark' non è definito - apache-spark, machine-learning, pyspark, calcolo distribuito, apache-spark-ml

Sottomissione del lavoro Python per scatenare da remoto - apache-spark, pyspark

Conversione del tipo di colonna sicura PySpark - apache-spark, pyspark

PySpark + taccuino jupyter - apache-spark, pyspark