/ / Elasticsearch-Hadoop obtient des données non indexées - hadoop, elasticsearch, streaming par hadoop, carte-élastique-réduire, elasticsearch-hadoop

Elasticsearch-Hadoop get Données non indexées - hadoop, elasticsearch, hadoop-streaming, elastic-map-reduction, elasticsearch-hadoop

J'ai un cluster elasticsearch qui a grandquantité de données. Je souhaite extraire toutes les données d'elasticsearch dans Hadoop (Hive). J'ai utilisé le pilote Elasticsearch-Hadoop afin d'extraire des données d'elasticsearch à l'aide de la table externe Hive, mais ce processus est trop lent et échoue toujours.

Mon premier problème est d'obtenir toutes les données de mon cluster elasticsearch existant. Le deuxième problème consiste à dupliquer toutes les données qui transitent dans elasticsearch sur HDFS une fois par jour ou par heure.

Comment puis-je atteindre ces objectifs?

Merci d'avance.

Réponses:

0 pour la réponse № 1

Vous pouvez utiliser le système hadoop comme entrepôt pour stockerles données à partir desquelles vous pouvez transmettre les données à elasticsearch et vice-versa.Essayez d’utiliser elasticsearch uniquement pour les données sur lesquelles vous souhaitez effectuer une analyse, supprimez le reste des données d’elasticsearch. Ainsi, chaque fois que vous souhaitez effectuer une analyse sur différents aspects, extrayez les données de hadoop et utilisez-les.