Ajuda na programação, respostas a perguntas / Faísca de Apache / Instalação de faísca do Apache e db_metastore - apache-spark

Instalação de faísca do Apache e db_metastore - apache-spark

Eu sou iniciante em Spark. Eu instalei java e spark-1.6.1-bin-hadoop2.6.tgz (eu não instalei o Hadoop) e sem alterar qualquer configuração no diretório conf correu spark-shell. No diretor onde a faísca está instalada, vejo outro metastore_db criado com a pasta tmp dentro dele. Por que este metastore_db é criado, onde isso é configurado? Também vejo sqlContext sendo criado depois de executar spark-shell, o que este sqlContext representa?

Respostas:

0 para resposta № 1

Ao executar o spark-shell, um SparkContext e SQLContext são criados. SQLContext é uma extensão do SparkContext para permitir o suporte de SQL de faísca. Tem método para executar consultas sql (método sql) e para criar DataFrames.

db_metastore é um caminho metastore do Hive. Suporte ao Spark As consultas do Apache Hive via HiveContext. Se não houver nenhum hive-site.xml configurado, o Spark usará o caminho db_metastore, consulte documentação para detalhes.

No entanto, seria bom se você baixasse o Spark 2.0. Lá você tem um ponto de entrada unificado para o Spark, chamado SparkSession. Essa classe permite ler dados de várias fontes, criar conjuntos de dados, etc.

Perguntas relacionadas

erro org.apache.spark.ml.feature.IDF - scala, apache-spark, apache-spark-mllib

IntelliSense em Intellij com bibliotecas de faíscas - scala, apache-spark, intellij-idea

Tentando fazer o Apache Spark funcionar com o IntelliJ - scala, apache-spark, intellij-idea, sbt

Quais linhas devo adicionar ao spark-defaults.conf para poder usar o phoenix do pyspark? - python, pyspark, hortonworks-data-platform, phoenix

compreensão da dependência do maven da faísca - maven, apache-faísca

Exceção ClassNotFound Ao executar o programa java do apache Spark - java, hadoop, apache-spark, pyspark

Novo no Spark e Spark SQL com Java - java, apache-faísca, apache-spark-sql, migração de dados, bigdata

Qual é o benefício de usar o CDH (cloudera)? [fechado] - hadoop, bigdata, apache-faísca, cloudera, cloudera-cdh

Link spark pipeline com aplicação Spark iniciando com SparkSession - apache-spark, apache-crunch

apache spark bluemix impossível - apache-spark, ibm-cloud

O Apache Spark não vê todas as ram das minhas máquinas - apache-spark, google-compute-engine, apache-spark-mllib

Apache spark- bigdata [fechado] - apache-faísca, bigdata

Como matar uma faísca se o ID da aplicação for conhecido? - apache-spark, datastax-enterprise

Spark sql row_number ou sequence number? - apache-spark, apache-spark-sql

Acessar a webUI do Spark a partir do computador remoto (home)? - apache-spark

Por que os executores de streaming de faísca começam em um horário diferente? - apache-spark, spark-streaming, timeline

É possível usar uma implementação de apache-ignite rdd no pyspark? - apache-faísca, pyspark, inflamar

Por que o Spark detecta 8 núcleos quando eu só tenho 4? - apache-spark, cpu-cores, webui

Ho para ler arquivo comprimido “.gz” usando spark DF ou DS? - apache-faísca, apache-spark-sql, faísca-dataframe, gzip, apache-spark-dataset

Como instalar o Apache Zeppelin no cluster autônomo existente do Apache Spark - amazon-web-services, apache-spark, bigdata, apache-spark-sql, apache-zeppelin