/ / Instalação de faísca do Apache e db_metastore - apache-spark

Instalação de faísca do Apache e db_metastore - apache-spark

Eu sou iniciante em Spark. Eu instalei java e spark-1.6.1-bin-hadoop2.6.tgz (eu não instalei o Hadoop) e sem alterar qualquer configuração no diretório conf correu spark-shell. No diretor onde a faísca está instalada, vejo outro metastore_db criado com a pasta tmp dentro dele. Por que este metastore_db é criado, onde isso é configurado? Também vejo sqlContext sendo criado depois de executar spark-shell, o que este sqlContext representa?

Respostas:

0 para resposta № 1

Ao executar o spark-shell, um SparkContext e SQLContext são criados. SQLContext é uma extensão do SparkContext para permitir o suporte de SQL de faísca. Tem método para executar consultas sql (método sql) e para criar DataFrames.

db_metastore é um caminho metastore do Hive. Suporte ao Spark As consultas do Apache Hive via HiveContext. Se não houver nenhum hive-site.xml configurado, o Spark usará o caminho db_metastore, consulte documentação para detalhes.

No entanto, seria bom se você baixasse o Spark 2.0. Lá você tem um ponto de entrada unificado para o Spark, chamado SparkSession. Essa classe permite ler dados de várias fontes, criar conjuntos de dados, etc.