Ho iniziato ad apprendere tecnologie BigData comeSQOOP, Hive, Pig recentemente e hanno scoperto che ci sono più alternative (come SQOOP, HiveQL ecc.) Disponibili per risolvere un determinato problema. Sono un po 'confuso sulla scelta della tecnologia / strumento.
Se si prende un tipico progetto Microsoft BI per la maggior parte del tempo, il flusso sarebbe
SSIS (per elaborare i dati non elaborati) -> SSAS (per creare DB OLAP) -> SSRS (per generare report).
Analogamente a ciò, quale sarebbe il flusso tipico di un progetto BigData / Hadoop. Supponiamo che la mia fonte di dati sia Registri e-mail.
risposte:
0 per risposta № 1In realtà dipende da quale sia il requisito e quale insieme di competenze hai. Secondo me è possibile elaborare i registri e-mail in più modi.
Opzioni
- (Quasi in tempo reale) Streaming dei registri e-mail dalla sorgente usando flume ---> Memorizza i registri come in HDFS nel lavandino del flusso ---> analizza i registri usando Pig o Hive.
- (Tempo reale) Streaming dei registri e-mail utilizzando gli ugelli Storm ---> elabora i registri in storm bolt ---> memorizzali nel database nosql per ulteriori report e analisi.
Ci sono molti altri modi per farlo. In base al set di abilità disponibili che si adatta alle tue esigenze, puoi decidere.