Pomoc pri programovaní, odpovede na otázky / Amazon s3 / saveAsTextFile na s3 na iskre nefunguje, len visí - amazon-s3, apache-spark

saveAsTextFile na s3 na iskre nefunguje, len visí - amazon-s3, apache-spark

Načítavam csv textový súbor z s3 do iskry, filtrovanie a mapovanie záznamov a zapisovanie výsledku do s3.

Vyskúšal som niekoľko vstupných veľkostí: 100k riadky, 1M riadky a 3.5M riadky. Bývalé dve úspešne skončia, zatiaľ čo druhá (3.5M riadky) visí v nejakom podivnom stave, v ktorom sa zastaví webová aplikácia sledovania pracovných etáp (tá v porte 4040) a konzola príkazového riadka sa zasekne a ani neodpovedá na ctrl- c. Master webová aplikácia na monitorovanie stále reaguje a zobrazuje stav ako FINISHED.

V s3 vidím prázdny adresár s jedným nulovým vstupom _temporary_$folder$, Adresa URL s3 je daná pomocou s3n:// protokol.

V protokoloch webovej konzoly sa nezobrazila žiadna chyba. Tiež som vyskúšal niekoľko veľkostí klastrov (1 majster + 1 pracovník, 1 majster + 5 pracovníkov) a dostal sa do rovnakého stavu.

Stretol sa niekto s takýmto problémom? Máte predstavu, čo sa deje?

odpovede:

2 pre odpoveď č. 1

Je možné, že ste spustili proti obmedzeniu 5 GB objektu s3n FileSystem, Môžete byť schopní sa dostať okolo tohto pomocou s3 FileSystem (nie s3n), alebo rozdelením výstupu.

Tu je to, čo AmazonS3 - Hadoop Wiki hovorí:

S3 Native FileSystem (schéma URI: s3n) Nativní súborový systém na čítanie a zápispravidelné súbory na S3. Výhodou tohto súborového systému je, že máte prístup k súborom na S3, ktoré boli napísané inými nástrojmi. [...] Nevýhodou je limit 5 GB pre veľkosť súboru uložený S3.

...

S3 Blokový súborový systém (schéma URI: s3) Blokový súborový systém podporovaný S3. Súbory sú uložené ako bloky, rovnako ako v HDFS. To umožňuje efektívnu implementáciu premenných. Tento súborový systém vyžaduje, aby ste vyhradili bucket pre súborový systém [...] Súbory uložené týmto súborovým systémom môžu byť väčšie ako 5 GB, ale nie sú interoperabilné s inými nástrojmi S3.

...