Ho un cluster elasticsearch che ha grandi dimensioniquantità di dati. Voglio estrarre tutti i dati da elasticsearch in Hadoop (Hive). Ho usato il driver Elasticsearch-Hadoop per estrarre i dati da elasticsearch utilizzando la tabella esterna Hive ma è troppo lento e non riesce sempre l'attività.
Il mio primo problema è ottenere tutti i dati dal mio cluster elasticsearch esistente. Il secondo problema è quello di duplicare tutti i dati in streaming su elasticsearch su HDFS una volta al giorno o un'ora.
Come posso raggiungerli?
Grazie in anticipo.
risposte:
0 per risposta № 1È possibile utilizzare il sistema hadoop come magazzino da memorizzarei dati da cui è possibile inviare i dati a elasticsearch e viceversa. Provare a utilizzare elasticsearch solo per i dati che si desidera eseguire analisi sul presente rimuovere il resto dei dati da elasticsearch. Quindi ogni volta che vuoi fare analisi su diversi aspetti, estrai i dati da hadoop e usali.