/ / Caricamento dei dati NOSQL nei nodi Spark: json, apache-spark, apache-spark-sql

Caricamento dei dati NOSQL nei nodi Spark - json, apache-spark, apache-spark-sql

Sto cercando di capire cosa succede quandocaricare i dati in Spark da un'origine NoSQL. vale a dire. Proverà a caricare i record nel driver e quindi a distribuirli ai nodi di lavoro O caricherà i record contemporaneamente in tutti i nodi di lavoro? . Fondamentalmente c'è un modo per caricare i dati in parallelo se sì, come garantire che lo stesso record non venga elaborato da più di un nodo? Se non si tratta di un processo parallelo, scriverebbe lo stesso json in un file ".json"? (A condizione che ogni riga sia un record)

risposte:

1 per risposta № 1

Si caricherà sempre direttamente sui lavoratori. A seconda della fonte dei dati e di come sono archiviati, può essere possibile caricare in parallelo. Quando i dati vengono caricati, i dati verranno suddivisi in righe non sovrapposte, quindi non dovrai preoccuparti di elaborare gli stessi dati due volte. Il formato del file sarà irrilevante. Da quale origine di dati stai caricando (mongo, cassandra, hbase)? Posso dare una risposta migliore se mi dici il sistema di origine.