Допомога у програмуванні, відповіді на питання / Джонс / Завантаження даних NOSQL у вузли Spark - json, apache-spark, apache-spark-sql

Завантаження даних NOSQL у вузли Spark - json, apache-spark, apache-spark-sql

Я намагаюся зрозуміти, що відбувається, коли язавантажувати дані в Spark з джерела NoSQL. тобто. Чи спробує завантажити записи у драйвер, а потім поширювати їх на робочі вузли АБО він завантажуватиме записи у всі робочі вузли одночасно? . В основному, чи є можливість паралельно завантажувати дані, якщо так, як забезпечити, щоб однаковий запис не оброблявся більш ніж одним вузлом? Якщо це не паралельний процес, записував би той самий json у файл довідки ".json"? (За умови, що кожен рядок є записом)

Відповіді:

1 для відповіді № 1

Це завжди буде завантажуватися безпосередньо на працівників. Залежно від джерела даних та того, як вони зберігаються, їх можна буде завантажувати паралельно. Коли дані завантажуються, дані будуть заштриховані рядками, що не перетинаються, тому вам не доведеться турбуватися про обробку одних і тих же даних двічі. Формат файлу буде неактуальним. З якого джерела даних ви завантажуєте (mongo, я можу дати кращу відповідь, якщо ви скажете мені джерельну систему.

Схожі запитання

IntelliSense у Intellijі з іскровими бібліотеками - скала, апач-іскр, intellij-ідея

spark-java пакет, як використовувати Spark від Scala? - скала, іскр-ява

Іскра мозкового розуміння залежності - Maven, Apache-Іскра

Нові для Spark і Spark SQL з Java - java, apache-spark, apache-spark-sql, data-migration, bigdata

Яка перевага використання CDH (cloudera)? [закрито] - хадооп, bigdata, apache-іскри, cloudera, cloudera-cdh

З'єднувати іскровий трубопровід із іскровим застосуванням, починаючи з екземпляра SparkSession - апач-іскри, apache-crunch

Іспанська установка Apache і db_metastore - apache-іскр

apache іскри bluemix неможливо - apache-іскри, ibm-cloud

Apache Spark не бачить весь баран моїх машин - apache-spark, google-compute-engine, apache-spark-mllib

Apache іскр-bigdata [closed] - apache-іскр, bigdata

Чи існує джерело аварії? - апач-іскр, іскри-dataframe

Як вбити іскрове завдання, якщо відомий ідентифікатор програми? - апач-іскр, датастакс-підприємство

Іскра "Apache" не дає правильного виводу - apache-spark, apache-spark-sql

Завантаження великого набору даних із SSD - apache-іскри, іскри-dataframe, apache-spark-data set

Іскра sql row_number або порядковий номер? - apache-spark, apache-spark-sql

Доступ до веб-інтерфейсу Spark від веб-вузла з віддаленого комп'ютера (вдома)? - апач-іскрі

Чому іскра поточні виконавці починають у різний час? - апачі-іскри, іскрові потоки, шкала часу

Чи можна використовувати apache-ignite rdd реалізацію в pyspark? - апач-іскрі, писпарк, запалити

Чому Іскр виявляє 8 ядер, коли у мене всього 4? - апачі-іскри, процесорні ядра, веббу

Хо, щоб прочитати ".gz" стиснутий файл, використовуючи іскрові DF або DS? - apache-іскр, apache-spark-sql, spark-dataframe, gzip, apache-spark-data set