/ / AWS Hadoop APIを使用してマップとリデューサーを増やす-java、hadoop、amazon-ec2、amazon-web-services、mapreduce

AWS Hadoop APIを使用してマップとレデューサーを増やす - java、hadoop、amazon-ec2、amazon-web-services、mapreduce

AWSサーバーでWordCountの例を実行しています。出力をテストして分析したい。いいえを増やしたいです。マッパーのとない。減速機のもなし。チャンクの。

どうすれば同じことを達成できますか?

いいえを設定する必要がありますかジョブ作成中のマッパー/リデューサーの数または私はいくつかのコードを追加する必要がありますか?私はJavaを使用しています。

回答:

回答№1は0

JobConfを使用してMapReduceジョブを開始するJavaプログラムのメイン関数でマッパーとリデューサーの数を設定できます conf.setNumMapTasks(int num) そして conf.setNumRedTasks(int num)それぞれ、

マッパーについては、 API:

"This is only a hint to the framework. The actual number of spawned map tasks depends on the number of InputSplits generated by the job"s InputFormat.getSplits(JobConf, int). A custom InputFormat is typically used to accurately control the number of map tasks for the job."

入力チャンクの数を明示的に設定するのはもう少し難しいです。入力の分割方法は、 InputFormat あなたが使用し、対応する InputSplits それが使用すること。入力の分割方法を操作する場合は、独自のカスタムInputFormat / InputSplitsを作成する必要があります。