/ / Завантаження даних NOSQL у вузли Spark - json, apache-spark, apache-spark-sql

Завантаження даних NOSQL у вузли Spark - json, apache-spark, apache-spark-sql

Я намагаюся зрозуміти, що відбувається, коли язавантажувати дані в Spark з джерела NoSQL. тобто. Чи спробує завантажити записи у драйвер, а потім поширювати їх на робочі вузли АБО він завантажуватиме записи у всі робочі вузли одночасно? . В основному, чи є можливість паралельно завантажувати дані, якщо так, як забезпечити, щоб однаковий запис не оброблявся більш ніж одним вузлом? Якщо це не паралельний процес, записував би той самий json у файл довідки ".json"? (За умови, що кожен рядок є записом)

Відповіді:

1 для відповіді № 1

Це завжди буде завантажуватися безпосередньо на працівників. Залежно від джерела даних та того, як вони зберігаються, їх можна буде завантажувати паралельно. Коли дані завантажуються, дані будуть заштриховані рядками, що не перетинаються, тому вам не доведеться турбуватися про обробку одних і тих же даних двічі. Формат файлу буде неактуальним. З якого джерела даних ви завантажуєте (mongo, я можу дати кращу відповідь, якщо ви скажете мені джерельну систему.