/ / Prepojenie streamovania iskier na vstup streamov - streamovanie, iskrenie, streamovanie

Pripojenie streamingu Spark do prúdu vstupov - streaming, jiskra, streamsets

Zaujímalo by ma, či by bolo možné poskytnúť vstup pre streamovanie iskier zo StreamSets. Všimol som si, že streamovanie Spark nie je podporované v cieľovom mieste konektorov StreamSets https://streamsets.com/connectors/ .

Skúmam, či existujú iné spôsoby, ako ich spojiť pre vzorový POC.

odpovede:

4 pre odpoveď č. 1

Najlepší spôsob spracovania údajov prichádzajúcich zZberač údajov streamov (SDC) v aplikácii Apache Spark Streaming by mal zapísať údaje do témy Kafka a odtiaľ ich prečítať. To vám umožní oddeliť Spark Streaming od SDC, takže obidva môžu pokračovať vlastnou rýchlosťou spracovania.

Mikrobatch SDC sú definované, zatiaľ čo počet záznamovMikrobusy Spark Streaming sú diktované časom. To znamená, že každá dávka SDC nemusí (a pravdepodobne nebude) zodpovedať dávke Spark Streaming (s najväčšou pravdepodobnosťou bude dávka Spark Streaming pravdepodobne obsahovať údaje z niekoľkých dávok SDC). SDC „sa zaväzuje“ každú dávku po odoslaní do cieľa - mať dávku napísanú do programu Spark Streaming bude znamenať, že každá dávka SDC bude musieť zodpovedať dávke Spark Streaming, aby nedošlo k strate údajov. Je tiež možné, že program Spark Streaming „opätovne spracuje“ už spáchané šarže v dôsledku zlyhania spracovania alebo uzlov. SDC nedokáže znovu spracovať odovzdané šarže - aby ste sa zotavili z takejto situácie, musíte skutočne napísať niečo podobnému ako Kafka, ktoré vám umožní znovu spracovať šarže. Takže máte priamy konektor, ktorý píše z SDC na Spark Streaming. by bolo zložité a pravdepodobne by malo problémy so stratou údajov.

Stručne povedané, najlepšou voľbou by bolo SDC -> Kafka -> Spark Streaming.