有限期間セミマルコフ決定プロセスを解くためのアルゴリズムはありますか?
のための最適な方針を見つけたい有限作用空間、有限状態空間、および期限を持つ逐次決定問題。批判的には、異なる行動は異なる時間を要し、行動のうちの1つに関してこの期間は確率的です。利用可能な方法に応じて、時間を離散的または連続的にモデル化できます。
割引された無限地平線セミMDPのアルゴリズムを知っていますが、有限地平線セミMDPに関する研究は見当たりません。この種の問題は以前に研究されたことがありますか?
回答:
回答№1は0ほとんどすべてのMDPと同様に、後方動的プログラミングはうまくいくはずです。有限の範囲を0から期限までの小さなステップで離散化してから、期限から始まる値を再帰的に更新することができます。状態空間では、現在の行動、その行動に費やした合計時間、およびすでに完了した行動を追跡する必要があります。可能な状態の数は非常に多い場合があります。
動的プログラムでは、アクションが完了したときの状態の値関数を選択できることを悪用することができます。