/ / уеб графики за синхронизиране на Spark Streaming - синхронизиране, apache-kafka, искра

уеб дневници за синхронизиране за Spark Streaming - синхронизиране, apache-kafka, искра-стрийминг

Имам намерение да създам система, в която мога да чета уебда се регистрират в реално време и да се използва apache искра за обработката им. Аз планирам да използвам kafka да премине дневниците да искра стрийминг за обобщаване на статистиката. Не съм сигурен дали да направя някои анализи на данни (сурови към json ...), и ако да, къде е подходящото място да го направя ( искрен сценарий, кафка, някъде другаде ...) Ще бъда благодарен, ако някой може да ме води. Нейният вид нещо ново за мен. Наздраве

Отговори:

0 за отговор № 1

Apache Kafka е разпределен публичен под-съобщениясистема. Тя не дава никакъв начин да се анализира или трансформира данни, не е за това. Но всеки потребител на Kafka може да обработва, анализира или трансформира публикуваните в Kafka данни и да преиздаде трансформираните данни в друга тема или да ги съхранява в база данни или файлова система.

Има много начини да се консумират данни от Kafka. Един от начините е този, който предложихте, поточни процесори в реално време (apache-flush, apache-spark, apache буря, ...).

Така че отговорът е "не", Кафка не дава никакъв начин да анализира суровите данни. Можете да преобразувате / анализирате необработените данни с искра но също така можете да пишете свой собствен потребител, тъй като има много Кафка пристанища клиенти или да използвате друг построен потребител Apache флаем, Apache буряи т.н.