/ / Elasticsearch-Hadoop ottiene dati non indicizzati - hadoop, elasticsearch, hadoop-streaming, elastic-map-reduce, elasticsearch-hadoop

Elasticsearch-Hadoop ottiene dati non indicizzati - hadoop, elasticsearch, hadoop-streaming, elastic-map-reduce, elasticsearch-hadoop

Ho un cluster elasticsearch che ha grandi dimensioniquantità di dati. Voglio estrarre tutti i dati da elasticsearch in Hadoop (Hive). Ho usato il driver Elasticsearch-Hadoop per estrarre i dati da elasticsearch utilizzando la tabella esterna Hive ma è troppo lento e non riesce sempre l'attività.

Il mio primo problema è ottenere tutti i dati dal mio cluster elasticsearch esistente. Il secondo problema è quello di duplicare tutti i dati in streaming su elasticsearch su HDFS una volta al giorno o un'ora.

Come posso raggiungerli?

Grazie in anticipo.

risposte:

0 per risposta № 1

È possibile utilizzare il sistema hadoop come magazzino da memorizzarei dati da cui è possibile inviare i dati a elasticsearch e viceversa. Provare a utilizzare elasticsearch solo per i dati che si desidera eseguire analisi sul presente rimuovere il resto dei dati da elasticsearch. Quindi ogni volta che vuoi fare analisi su diversi aspetti, estrai i dati da hadoop e usali.