Ajuda na programação, respostas a perguntas / Faísca de Apache Desempenho de leitura do intervalo de ignição - apache-spark, spark-dataframe, conjunto de dados do apache-spark, apache-spark-2.2

Desempenho de leitura de intervalo de ignição - apache-spark, spark-dataframe, conjunto de dados de faísca do apache, apache-spark-2.2

Versão do Spark - 2.2.1.

Eu criei uma tabela com balde com 64 baldes, estou executando uma função de agregação select t1.ifa,count(*) from $tblName t1 where t1.date_ = "2018-01-01" group by ifa . Eu posso ver que 64 tarefas no Spark UI, queutilize apenas 4 executores (cada executor tem 16 núcleos) de 20. Existe uma maneira de dimensionar o número de tarefas ou de como as consultas com intervalos devem ser executadas (número de núcleos em execução como o número de intervalos)?

Aqui está a tabela de criação:

sql("""CREATE TABLE level_1 (
bundle string,
date_ date,
hour SMALLINT)
USING ORC
PARTITIONED BY (date_ , hour )
CLUSTERED BY (ifa)
SORTED BY (ifa)
INTO 64 BUCKETS
LOCATION "XXX"""")

Aqui está a consulta:

sql(s"select t1.ifa,count(*) from $tblName t1 where t1.date_ = "2018-01-01" group by ifa").show

Respostas:

1 para resposta № 1

Com o intervalo, o número de tarefas == número de depósitos, portanto, você deve estar ciente do número de núcleos / tarefas que precisa / deseja usar e, em seguida, defini-lo como o número de depósitos.

Perguntas relacionadas

Valores múltiplos null em spark csv - scala, csv, apache-spark

IntelliSense em Intellij com bibliotecas de faíscas - scala, apache-spark, intellij-idea

pacote spark-java como usar o Spark do Scala? - scala, faísca-java

faísca de scala 2.10.4 para 2.11 - scala, eclipse-plugin, apache-faísca, apache-spark-sql

compreensão da dependência do maven da faísca - maven, apache-faísca

Novo no Spark e Spark SQL com Java - java, apache-faísca, apache-spark-sql, migração de dados, bigdata

Link spark pipeline com aplicação Spark iniciando com SparkSession - apache-spark, apache-crunch

Instalação de faísca do Apache e db_metastore - apache-spark

apache spark bluemix impossível - apache-spark, ibm-cloud

O Apache Spark não vê todas as ram das minhas máquinas - apache-spark, google-compute-engine, apache-spark-mllib

Apache spark- bigdata [fechado] - apache-faísca, bigdata

A faísca do apache tem reconhecimento geográfico? - apache-spark, spark-dataframe

Como matar uma faísca se o ID da aplicação for conhecido? - apache-spark, datastax-enterprise

Spark sql row_number ou sequence number? - apache-spark, apache-spark-sql

Acessar a webUI do Spark a partir do computador remoto (home)? - apache-spark

Por que os executores de streaming de faísca começam em um horário diferente? - apache-spark, spark-streaming, timeline

Integração de Aprendizado de Máquina Java Arbitrário com o Apache Spark - apache-faísca, aprendizado de máquina, simultaneidade

Por que o Spark detecta 8 núcleos quando eu só tenho 4? - apache-spark, cpu-cores, webui

O DataFrame pode ser acessado a partir de diferentes SparkSessions? - apache-faísca, apache-spark-sql, spark-dataframe

Ho para ler arquivo comprimido “.gz” usando spark DF ou DS? - apache-faísca, apache-spark-sql, faísca-dataframe, gzip, apache-spark-dataset