Ajuda na programação, respostas a perguntas / Json / Carregando dados NOSQL nos nós do Spark - json, apache-spark, apache-spark-sql

Carregando dados do NOSQL nos nós do Spark - json, apache-spark, apache-spark-sql

Estou tentando entender o que acontece quandocarregar dados no Spark a partir de uma fonte NoSQL. ie Ele tentará carregar os registros no driver e depois distribuí-lo aos nós do trabalhador OU carregará os registros em todos os nós do trabalhador simultaneamente? . Basicamente, existe alguma maneira de carregar dados em paralelo, se sim, como garantir que o mesmo registro não seja processado por mais de um nó? Se não for um processo paralelo, seria possível gravar o mesmo json em uma ajuda de arquivo ".json"? (Desde que cada linha seja um registro)

Respostas:

1 para resposta № 1

Sempre será carregado diretamente para os trabalhadores. Dependendo da fonte dos dados e de como eles são armazenados, pode ser possível carregar em paralelo. Quando os dados estão sendo carregados, eles serão fragmentados com linhas que não se sobrepõem, assim você não precisará se preocupar em processar os mesmos dados duas vezes. O formato do arquivo será irrelevante. De qual fonte de dados você está carregando (mongo, cassandra, hbase)? Posso dar uma resposta melhor se você me informar o sistema de origem.

Perguntas relacionadas

IntelliSense em Intellij com bibliotecas de faíscas - scala, apache-spark, intellij-idea

pacote spark-java como usar o Spark do Scala? - scala, faísca-java

compreensão da dependência do maven da faísca - maven, apache-faísca

Novo no Spark e Spark SQL com Java - java, apache-faísca, apache-spark-sql, migração de dados, bigdata

Qual é o benefício de usar o CDH (cloudera)? [fechado] - hadoop, bigdata, apache-faísca, cloudera, cloudera-cdh

Link spark pipeline com aplicação Spark iniciando com SparkSession - apache-spark, apache-crunch

Instalação de faísca do Apache e db_metastore - apache-spark

apache spark bluemix impossível - apache-spark, ibm-cloud

O Apache Spark não vê todas as ram das minhas máquinas - apache-spark, google-compute-engine, apache-spark-mllib

Apache spark- bigdata [fechado] - apache-faísca, bigdata

A faísca do apache tem reconhecimento geográfico? - apache-spark, spark-dataframe

Como matar uma faísca se o ID da aplicação for conhecido? - apache-spark, datastax-enterprise

A faísca do Apache não fornece resultados corretos - apache-spark, apache-spark-sql

Carregamento de grandes conjuntos de dados do SSD - apache-spark, spark-dataframe, conjunto de dados do apache-spark

Spark sql row_number ou sequence number? - apache-spark, apache-spark-sql

Acessar a webUI do Spark a partir do computador remoto (home)? - apache-spark

Por que os executores de streaming de faísca começam em um horário diferente? - apache-spark, spark-streaming, timeline

É possível usar uma implementação de apache-ignite rdd no pyspark? - apache-faísca, pyspark, inflamar

Por que o Spark detecta 8 núcleos quando eu só tenho 4? - apache-spark, cpu-cores, webui

Ho para ler arquivo comprimido “.gz” usando spark DF ou DS? - apache-faísca, apache-spark-sql, faísca-dataframe, gzip, apache-spark-dataset