プログラミングの助け、質問への回答 / 動的プログラミング /連続時間有限期間MDP - 動的計画法、マルコフ連鎖、強化学習、マルコフモデル、制御理論

連続時間有限地平線MDP - ダイナミックプログラミング、マルコフ連鎖、強化学習、マルコフモデル、制御理論

有限期間セミマルコフ決定プロセスを解くためのアルゴリズムはありますか？

のための最適な方針を見つけたい有限作用空間、有限状態空間、および期限を持つ逐次決定問題。批判的には、異なる行動は異なる時間を要し、行動のうちの1つに関してこの期間は確率的です。利用可能な方法に応じて、時間を離散的または連続的にモデル化できます。

割引された無限地平線セミMDPのアルゴリズムを知っていますが、有限地平線セミMDPに関する研究は見当たりません。この種の問題は以前に研究されたことがありますか？

回答：

回答№1は0

ほとんどすべてのMDPと同様に、後方動的プログラミングはうまくいくはずです。有限の範囲を0から期限までの小さなステップで離散化してから、期限から始まる値を再帰的に更新することができます。状態空間では、現在の行動、その行動に費やした合計時間、およびすでに完了した行動を追跡する必要があります。可能な状態の数は非常に多い場合があります。

動的プログラムでは、アクションが完了したときの状態の値関数を選択できることを悪用することができます。

隠れマルコフモデル（HMM）における3状態電話モデル - 音声認識、状態機械、隠れマルコフモデル

R - rにおける隠れマルコフモデル、機械学習、分類、隠れマルコフモデル、教師あり学習

マルコフ連鎖以前の状態 - r、マルコフ連鎖、マルコフ

r / msm-package /離散時間、時間均質遷移確率をどのように適合させて得るか？ - r、マルコフ連鎖

もし価値がある閾値に達すると、次のものは下に行くことができない - r、マルコフ連鎖

継続的強化学習最適化が爆発 - 強化学習

強化学習による重みを学習するニューラルネットワークにおける行動と報酬とは何か - 強化学習、反復ニューラルネットワーク

GHMMで単一の共分散行列を使用するには？ - python、c、numpy、機械学習、隠れマルコフモデル

継続的に連続的にマッピングする強化学習方法 - パイソン、機械学習、強化学習、経済学

行列の乗算の観点からのマルコフ連鎖の理解 - python、numpy、probability、markov-chains

プログラムでマルコフ連鎖のNCDを計算する方法 - Python、数学、マルコフ連鎖