プログラミングの助け、質問への回答 / Python /パイプコマンドラインhadoopストリーミングジョブ - python、pipe、stdout、hadoop-streaming

パイプコマンドラインhadoopストリーミングジョブ - python、pipe、stdout、hadoop-streaming

私はハープ・ストリーミング・ジョブをパイプしたい。たとえば、私はコマンドを実行していた hadoop jar hadoop-streaming.jar -mapper map1.py -reducer reducer.py 入力xx -output / output1

しかし、私はステップ1からの出力をhdfsに格納せずにmapreduceジョブの私のステップ2の入力は、おそらく標準出力として出力されます。 Linuxのパイプのようなものがありますか？といった hadoop jar hadoop-streaming.jar -mapper map1.py -reducer reducer.py -input xx | hadoop jar hadoop-streaming.jar -mapper map2.py リデュースリデューサー2.py 出力/出力

回答：

回答№1は0

私も同じ問題があり、bash / shellスクリプトを使用してhadoopストリーミングコマンドを実行しました。 hadoop.shという名前のファイルを作成しました。

rm -r output | bin/hadoop jar share/hadoop/tools/lib/hadoop-streaming-2.7.3.jar -files /hadoop-2.7.3/script/mapper.php -input /data/* -output output -mapper "php mapper.php" -jobconf mapred.reduce.tasks=1
#add a beginning/ending php to the file
ex -sc "1i|<?php" -c "$a|?>" -cx output/part-00000
#move the file from /output to /script
mv /hadoop-2.7.3/output/part-00000 /hadoop-2.7.3/script/part-00000.php

part-00000ファイルは、次のhadoopコマンドのpart0000.phpファイルになります。

Hadoopストリーミングコマンドの失敗ジョブが成功しなかった - python、hadoop、hadoop-streaming

Pythonの入力ファイル引数とstdinストリーミング用の2つのパイプラインを使用する - python、linux、bash、hadoop

Hadoopストリーミングジョブに寄木細工の出力を書き込む - python、hadoop-streaming、parquet、outputformat

Hadoopをmongo-hadoopを使ってPythonにストリーミングする - python、mongodb、hadoop、cloudera

ディープラーニング：HadoopストリーミングとMapReduceに統合できるオープンソースのライブラリはありますか？ [閉じた] - python、hadoop、mapreduce、ハープ・ストリーミング、深い学習

JSON引数をPythonの文字列として渡すhadoopストリーミングアプリケーション - python、json、hadoop、hadoop-streaming

Hadoopストリーミングは、中国語が-files pythonで文字化けしていた - python、hadoop、hadoop-streaming

STDINまたはファイルをHadoop環境のマッパー入力として使用しますか？ - python、hadoop、mapreduce

hadoop-streaming：ジョブが完了したら後処理を自動化するか？ - python、mongodb、hadoop、mapreduce、hadoop-streaming

Hadoopストリーミングで複数のマップリダクションタスクを連鎖する - python、hadoop、mapreduce、hadoop-plugins

java.io.IOException：多くのマッパー/レデューサー、多くのpython-2.7、hadoop、hadoop-streaming、broken-pipeに壊れたパイプ