Помощ при програмиране, отговори на въпроси / Scala / Как да използвам приложния програмен интерфейс (API) за съкращаване на данни в рамки за данни - скала, искряща информационна рамка

Как да използваме приложния програмен интерфейс (API) за корупция на рамки за данни? - скала, искряща информационна рамка

Имам изискване да паралелизирам скалатаРамки за данни, за да заредите различни таблици. Имам фактическа таблица, която има около 1,7 TB данни. Това отнема около 5 минути, за да се зареди. Искам едновременно да зареждам таблиците с размери, така че да мога да намаля общия си скала. Аз не съм добре запознат с едновременния API в Scala ?.

Отговори:

0 за отговор № 1

Трябва да прочетете на Spark - цялата точка натова е да се паралелизира обработката на данни извън обхвата на една машина. По същество Spark ще паралелизира натоварването с толкова задачи, които ще работите успоредно - всичко зависи от начина, по който зададете клъстера си - от въпроса, който предполагам, че използвате само, и че сте го използвали в местния модел, в който случай трябва най-малко да го стартирате с локалния [брой процесори, които имате]

Ако не съм разбрал, че не би трябвало да използвате и други приложни програмни интерфейси за Scala concurrency

Свързани въпроси

SQL заявки в RDD - sql, scala, apache-spark

Използвайки метода на DataFrame и "where ()", който избира редове, където A е по-голям от 5 или B е по-голям от 5 - scareframe

Трансформация на данните (подготовка на данни) в apache scala scala - scala, join, apache-spark, multilabel-класификация

Опитвам се да изпълня заявка за искрен sql от UDF - скала, hadoop, apache-spark, apache-spark-sql, spark-dataframe

Изпращане на данни от кода ми на искра до redshift - скала, apache-spark, amazon-redshift

Как да добавим стойността на колоната на дадена рамка в клаузата на друга информационна рамка в искра, използвайки scala-scala, spark-dataframe

Съвместима версия на Scala за Spark 2.2.0? - скала, apache-искра

unix_timestamp () функция промени часа в скала искра - скала, dataframe, spark-dataframe, unix-timestamp

Хармонично означава за Spark DataFrames в Scala - скала, apache-spark, apache-spark-sql

извличане на седмичното число от скалата на искра - скала, apache-spark, spark-dataframe

Множество nullValues в искра csv - scala, csv, apache-spark

пакет искра-ява как да използвате Spark от Scala? - скала, искра-ява

Каква е разликата между df.select () и df.agg ()? - скала, apache-spark, apache-spark-sql, искра-информационна рамка

Конвертиране на искра DataFrame в MlLib Matrix - скала, apache-spark, spark-dataframe, apache-spark-mllib

Spark за цикъл с Rdd трансформация - скала, apache-spark

искра от скала 2.10.4 до 2.11 - скала, затъмнение-плъгин, apache-spark, apache-spark-sql

Scala Spark Dataframe - бройте броя на струните за всеки ред в колона с масив - scala, apache-spark, apache-spark-sql, databricks

pyspark, свързващ повече от 2 информационни рамки - python, apache-spark, pyspark, spark-dataframe

Изчисляване на разликата между Spark DataFrames - apache-spark

Може ли DataFrame да бъде достъпен от различни SparkSessions? - apache-spark, apache-spark-sql, искра-информационна рамка