プログラミングの助け、質問への回答 / Tensorflow /パラメータサーバに送信する前にホストのパラメータを平均化する - テンソルフロー

パラメータサーバに送信する前にホストのパラメータを平均化する - テンソルフロー

私は16個のGPUを持つ32個のホストを持つクラスタで分散同期トレーニングを実行するコードを書いています。

私はこのチュートリアルを読んでいます： https://www.tensorflow.org/versions/r0.8/how_tos/distributed/index.html とこのサンプルコード： https://github.com/tensorflow/models/tree/master/inception

両方とも、GPUごとにワーカーを実行し、SyncReplicaOptimizerを使用して同期トレーニングを実行することを示唆しているようです。

私がそれをすると、すべてのステップの後に、各PSは32 * 16人の労働者からのパラメータのサブセットに対してグラジエントを受け取るでしょう、正しいのでしょうか？

16からの勾配を平均化することは可能ですか？平均化された勾配をパラメータサーバに送信する前に、各ホストのGPU？この方法では、各PSは、32 * 16の代わりに32組の勾配を受け取るだけでよい。

これを行うことが可能な場合、これを行う方法のどこかにサンプルコードがありますか？

回答：

回答№1は1

それは可能です、公式 cifar10_multi_gpu_train.py 例は、計算された平均勾配1つのホスト上のRAMに保存することができます。 sync_replicasと組み合わせてRAM変数を取得し、ホスト間でそれらを集約することができます

関連する質問

TensorFlowで単一のウェイト更新に必要な2つのフィードフォワード伝播？ - テンソルフロー

Tensorflow 1.3およびCUDA 8.1 - テンソルフロー、テンソルフロー - gpu

tensorflowはanacondaの仮想envでのみ利用可能 - tensorflow、anaconda

あなたはtensorflowでcuSOLVERのGPU QR分解アルゴリズムを使用できますか？ - テンソルフロー、GPU、線形代数、クソルバー

テンソルフローでxlaをC ++ APIで使用する方法 - tensorflow、tensorflow-xla

テンソルフロー後のプログラム - テンソルフロー

シフト次元またはテンソルフローのロール軸 - テンソルフロー

すべてのCPUを使用するTensorflowの設定 - テンソルフロー

Tensorflowでレイヤーパラメータとともにウェイトマトリックスとハイパーパラメータをどのように抽出しますか？ - テンソルフロー、ニューラルネットワーク、ディープラーニング、テンソルフロー - gpu

最新テンソルフローバージョンをAnacondaにインストールする - tensorflow、anaconda

旗はテンソルフローではどういう意味ですか？ - テンソルフロー

Windows 10でのインストールに成功した後のテンソルフローエラー - tensorflow、windows-10

ダーツラングのテンソルフロー？ - テンソルフロー、ダーツ

テンソルフロー内のすべての変数が、CPU範囲、テンソルフロー

Ubuntu 17.10にテンソルフローをインストールできませんでした - python、python-3.x、tensorflow、ubuntu-17.10

Fabricを使用して複数のアプリケーションサーバを持つ単一のホストへの導入を処理するにはどうすればよいですか？ - python、ホスト、ファブリック

TensorFlow配置アルゴリズム - Python、アルゴリズム、テンソルフロー、分布、配置

linux - stdinのリスニングを開始し、回線をリダイレクトする方法 - linux、bash

どのようにテンソルフローiOSの例にckptデータモデルを使用するには？ - イオス、機械学習、テンソルフロー

正式なテンソルフローイメージなしでDockerでテンソルフローを使用する必要があるのは何ですか？ - ドッカー、テンソルフロー