/ / Flusso tipico del progetto BigData / Hadoop? - hadoop, alveare, apache-maiale, bigdata, sqoop

Flusso tipico del progetto BigData / Hadoop? - hadoop, hive, apache-pig, bigdata, sqoop

Ho iniziato ad apprendere tecnologie BigData comeSQOOP, Hive, Pig recentemente e hanno scoperto che ci sono più alternative (come SQOOP, HiveQL ecc.) Disponibili per risolvere un determinato problema. Sono un po 'confuso sulla scelta della tecnologia / strumento.

Se si prende un tipico progetto Microsoft BI per la maggior parte del tempo, il flusso sarebbe

SSIS (per elaborare i dati non elaborati) -> SSAS (per creare DB OLAP) -> SSRS (per generare report).

Analogamente a ciò, quale sarebbe il flusso tipico di un progetto BigData / Hadoop. Supponiamo che la mia fonte di dati sia Registri e-mail.

risposte:

0 per risposta № 1

In realtà dipende da quale sia il requisito e quale insieme di competenze hai. Secondo me è possibile elaborare i registri e-mail in più modi.

Opzioni

  1. (Quasi in tempo reale) Streaming dei registri e-mail dalla sorgente usando flume ---> Memorizza i registri come in HDFS nel lavandino del flusso ---> analizza i registri usando Pig o Hive.
  2. (Tempo reale) Streaming dei registri e-mail utilizzando gli ugelli Storm ---> elabora i registri in storm bolt ---> memorizzali nel database nosql per ulteriori report e analisi.

Ci sono molti altri modi per farlo. In base al set di abilità disponibili che si adatta alle tue esigenze, puoi decidere.