/ / Как да използвам приложния програмен интерфейс (API) за съкращаване на данни в рамки за данни - скала, искряща информационна рамка

Как да използваме приложния програмен интерфейс (API) за корупция на рамки за данни? - скала, искряща информационна рамка

Имам изискване да паралелизирам скалатаРамки за данни, за да заредите различни таблици. Имам фактическа таблица, която има около 1,7 TB данни. Това отнема около 5 минути, за да се зареди. Искам едновременно да зареждам таблиците с размери, така че да мога да намаля общия си скала. Аз не съм добре запознат с едновременния API в Scala ?.

Отговори:

0 за отговор № 1

Трябва да прочетете на Spark - цялата точка натова е да се паралелизира обработката на данни извън обхвата на една машина. По същество Spark ще паралелизира натоварването с толкова задачи, които ще работите успоредно - всичко зависи от начина, по който зададете клъстера си - от въпроса, който предполагам, че използвате само, и че сте го използвали в местния модел, в който случай трябва най-малко да го стартирате с локалния [брой процесори, които имате]

Ако не съм разбрал, че не би трябвало да използвате и други приложни програмни интерфейси за Scala concurrency