/ / saveAsTextFile sur s3 sur spark ne fonctionne pas, mais se bloque - amazon-s3, apache-spark

saveAsTextFile to s3 sur spark ne fonctionne pas, mais se bloque - amazon-s3, apache-spark

Je charge un fichier texte csv de s3 dans spark, filtre et mappe les enregistrements et écrit le résultat dans s3.

J'ai essayé plusieurs tailles d'entrée: 100 000 lignes, 1 million de lignes et 3,5 millions de lignes. Les deux premières se terminent avec succès tandis que la dernière (3,5 millions de lignes) est bloquée dans un état étrange dans lequel le travail surveille l'application Web (celle du port 4040), et la console de ligne de commande reste bloquée et ne répond même pas aux commandes ctrl- c. L’application de surveillance Web du maître répond toujours et affiche l’état suivant: FINISHED.

Dans s3, je vois un répertoire vide avec une seule entrée de taille zéro _temporary_$folder$. L’URL s3 est donné en utilisant le s3n:// protocole.

Je n'ai vu aucune erreur dans les journaux de la console Web. J'ai également essayé plusieurs tailles de cluster (1 maître + 1 travailleur, 1 maître + 5 travailleurs) et suis arrivé au même état.

Quelqu'un at-il rencontré un tel problème? Une idée de ce qui se passe?

Réponses:

2 pour la réponse № 1

Il est possible que vous rencontriez la limitation de 5 Go d’objet du s3n FileSystem. Vous pourrez peut-être contourner cela en utilisant s3 FileSystem (ne pas s3n), ou en partitionnant votre sortie.


Voici ce que le AmazonS3 - Wado Hadoop dit:

S3 Native FileSystem (schéma d'URI: s3n) Un système de fichiers natif pour la lecture et l'écriturefichiers réguliers sur S3. L'avantage de ce système de fichiers est que vous pouvez accéder aux fichiers sur S3 qui ont été écrits avec d'autres outils. [...] L'inconvénient est la limite de 5 Go imposée par S3 à la taille du fichier.

...

S3 Block FileSystem (schéma d'URI: s3) Un système de fichiers basé sur des blocs soutenu par S3. Les fichiers sont stockés sous forme de blocs, comme dans HDFS. Cela permet une implémentation efficace des renommés. Ce système de fichiers nécessite que vous dédiiez un compartiment au système de fichiers [...]. Les fichiers stockés par ce système de fichiers peuvent dépasser 5 Go, mais ils ne sont pas interopérables avec d'autres outils S3.

...

AmazonS3 (dernière modification le 2014-07-01 13:27:49 par SteveLoughran)