Eu sou iniciante em Spark. Eu instalei java e spark-1.6.1-bin-hadoop2.6.tgz (eu não instalei o Hadoop) e sem alterar qualquer configuração no diretório conf correu spark-shell. No diretor onde a faísca está instalada, vejo outro metastore_db criado com a pasta tmp dentro dele. Por que este metastore_db é criado, onde isso é configurado? Também vejo sqlContext sendo criado depois de executar spark-shell, o que este sqlContext representa?
Respostas:
0 para resposta № 1Ao executar o spark-shell, um SparkContext e SQLContext são criados. SQLContext é uma extensão do SparkContext para permitir o suporte de SQL de faísca. Tem método para executar consultas sql (método sql) e para criar DataFrames.
db_metastore é um caminho metastore do Hive. Suporte ao Spark As consultas do Apache Hive via HiveContext. Se não houver nenhum hive-site.xml configurado, o Spark usará o caminho db_metastore, consulte documentação para detalhes.
No entanto, seria bom se você baixasse o Spark 2.0. Lá você tem um ponto de entrada unificado para o Spark, chamado SparkSession. Essa classe permite ler dados de várias fontes, criar conjuntos de dados, etc.