Načítavam csv textový súbor z s3 do iskry, filtrovanie a mapovanie záznamov a zapisovanie výsledku do s3.
Vyskúšal som niekoľko vstupných veľkostí: 100k riadky, 1M riadky a 3.5M riadky. Bývalé dve úspešne skončia, zatiaľ čo druhá (3.5M riadky) visí v nejakom podivnom stave, v ktorom sa zastaví webová aplikácia sledovania pracovných etáp (tá v porte 4040) a konzola príkazového riadka sa zasekne a ani neodpovedá na ctrl- c. Master webová aplikácia na monitorovanie stále reaguje a zobrazuje stav ako FINISHED
.
V s3 vidím prázdny adresár s jedným nulovým vstupom _temporary_$folder$
, Adresa URL s3 je daná pomocou s3n://
protokol.
V protokoloch webovej konzoly sa nezobrazila žiadna chyba. Tiež som vyskúšal niekoľko veľkostí klastrov (1 majster + 1 pracovník, 1 majster + 5 pracovníkov) a dostal sa do rovnakého stavu.
Stretol sa niekto s takýmto problémom? Máte predstavu, čo sa deje?
odpovede:
2 pre odpoveď č. 1Je možné, že ste spustili proti obmedzeniu 5 GB objektu s3n FileSystem
, Môžete byť schopní sa dostať okolo tohto pomocou s3 FileSystem
(nie s3n
), alebo rozdelením výstupu.
Tu je to, čo AmazonS3 - Hadoop Wiki hovorí:
S3 Native FileSystem (schéma URI: s3n) Nativní súborový systém na čítanie a zápispravidelné súbory na S3. Výhodou tohto súborového systému je, že máte prístup k súborom na S3, ktoré boli napísané inými nástrojmi. [...] Nevýhodou je limit 5 GB pre veľkosť súboru uložený S3.
...
S3 Blokový súborový systém (schéma URI: s3) Blokový súborový systém podporovaný S3. Súbory sú uložené ako bloky, rovnako ako v HDFS. To umožňuje efektívnu implementáciu premenných. Tento súborový systém vyžaduje, aby ste vyhradili bucket pre súborový systém [...] Súbory uložené týmto súborovým systémom môžu byť väčšie ako 5 GB, ale nie sú interoperabilné s inými nástrojmi S3.
...
AmazonS3 (naposledy upravený 2014-07-01 13:27:49 od SteveLoughran)