Aiuto nella programmazione, risposte alle domande / jSON / Caricamento dei dati NOSQL nei nodi Spark: json, apache-spark, apache-spark-sql

Caricamento dei dati NOSQL nei nodi Spark - json, apache-spark, apache-spark-sql

Sto cercando di capire cosa succede quandocaricare i dati in Spark da un'origine NoSQL. vale a dire. Proverà a caricare i record nel driver e quindi a distribuirli ai nodi di lavoro O caricherà i record contemporaneamente in tutti i nodi di lavoro? . Fondamentalmente c'è un modo per caricare i dati in parallelo se sì, come garantire che lo stesso record non venga elaborato da più di un nodo? Se non si tratta di un processo parallelo, scriverebbe lo stesso json in un file ".json"? (A condizione che ogni riga sia un record)

risposte:

1 per risposta № 1

Si caricherà sempre direttamente sui lavoratori. A seconda della fonte dei dati e di come sono archiviati, può essere possibile caricare in parallelo. Quando i dati vengono caricati, i dati verranno suddivisi in righe non sovrapposte, quindi non dovrai preoccuparti di elaborare gli stessi dati due volte. Il formato del file sarà irrilevante. Da quale origine di dati stai caricando (mongo, cassandra, hbase)? Posso dare una risposta migliore se mi dici il sistema di origine.

domande correlate

Intellisense in Intellij con librerie di scintille - scala, apache-spark, intellij-idea

pacchetto spark-java come usare Spark da Scala? - scala, spark-java

comprensione della dipendenza da scintilla - maven, apache-spark

Nuovo a Spark e Spark SQL con Java: java, apache-spark, apache-spark-sql, data-migration, bigdata

Qual è il vantaggio dell'utilizzo di CDH (cloudera)? [chiuso] - hadoop, bigdata, apache-spark, cloudera, cloudera-cdh

Scintilla link crunch con l'applicazione spark a partire dall'istanza SparkSession - apache-spark, apache-crunch

Installazione di scintille di Apache e db_metastore - apache-spark

apache spark bluemix impossibile - apache-spark, ibm-cloud

Apache Spark non vede tutta la ram delle mie macchine - apache-spark, google-compute-engine, apache-spark-mllib

Apache spark- bigdata [closed] - apache-spark, bigdata

La scintilla di apache ha consapevolezza geologica? - apache-spark, spark-dataframe

Come si uccide un lavoro spark se è noto l'ID dell'applicazione? - apache-spark, datastax-enterprise

La scintilla di Apache non dà risultati corretti - apache-spark, apache-spark-sql

Caricamento di un grande set di dati da SSD - apache-spark, spark-dataframe, dataset di apache-spark-set

Spark sql numero_riga o numero di sequenza? - apache-spark, apache-spark-sql

Accedi a WebUI di Spark dal computer remoto (casa)? - apache-spark

Perché avviare gli execution di streaming in un momento diverso? - apache-spark, spark-streaming, timeline

È possibile utilizzare un'implementazione rdd di apache-ignite in pyspark? - apache-spark, pyspark, ignite

Perché Spark rileva 8 core, quando ne ho solo 4? - apache-spark, cpu-core, webui

Ho letto il file compresso ".gz" usando spark DF o DS? - apache-spark, apache-spark-sql, spark-dataframe, gzip, set di dati di apache-spark