/ / Desempenho de upgrade do Hadoop / Hive - hadoop, hive, upgrade

Desempenho de upgrade do Hadoop / Hive - hadoop, hive, upgrade

Estamos testando Hive e Hadoop para escavar nossos dados e eu instalei um tempo atrás Hadoop 1.2.1 e Hive 0.11 (era a versão estável)

Servidor de teste é de 4 núcleos e 16GB de memória RAM.

Agora eu queria saber se a mudança para o Hive 0.12 e o Hadoop 2.2 valeria o trabalho de atualizar o servidor em termos de desempenho em consultas?

Uma consulta é assim:

SELECT i, day(time), count(distint value), count(*) from table lateral view explode(column) tab AS i group by i, day(time);

Então, um pouco de tudo na minha consulta é usado, mas eu não consegui encontrar informações decentes sobre o ganho de desempenho ao atualizar.

Qualquer insight sobre este assunto seria bom :)

Felicidades

Respostas:

0 para resposta № 1

Como sua consulta não contém "onde" predicado, você não pode desfrutar do Pushdown de predicado para a camada de armazenamento introduzida em 0.12, mesmo se os dados estiverem no formato ORC.

Assim, embora entre 0,12 melhorias sejam a geração e otimização de planos mais rápidos para COUNT, acredito que o palpite deve ser que a melhoria de desempenho não será dramática.


0 para resposta № 2

Para esse tipo de consulta, o único benefício que você poderia esperar na atualização para o Hive 12 seria se você tivesse um grande número de partições. O Apache JIRA HIVE-4051 tem mais informações se você estiver interessado.