/ / Carregando dados NOSQL nos nós do Spark - json, apache-spark, apache-spark-sql

Carregando dados do NOSQL nos nós do Spark - json, apache-spark, apache-spark-sql

Estou tentando entender o que acontece quandocarregar dados no Spark a partir de uma fonte NoSQL. ie Ele tentará carregar os registros no driver e depois distribuí-lo aos nós do trabalhador OU carregará os registros em todos os nós do trabalhador simultaneamente? . Basicamente, existe alguma maneira de carregar dados em paralelo, se sim, como garantir que o mesmo registro não seja processado por mais de um nó? Se não for um processo paralelo, seria possível gravar o mesmo json em uma ajuda de arquivo ".json"? (Desde que cada linha seja um registro)

Respostas:

1 para resposta № 1

Sempre será carregado diretamente para os trabalhadores. Dependendo da fonte dos dados e de como eles são armazenados, pode ser possível carregar em paralelo. Quando os dados estão sendo carregados, eles serão fragmentados com linhas que não se sobrepõem, assim você não precisará se preocupar em processar os mesmos dados duas vezes. O formato do arquivo será irrelevante. De qual fonte de dados você está carregando (mongo, cassandra, hbase)? Posso dar uma resposta melhor se você me informar o sistema de origem.