強化学習について 1. 強化学習の基礎 バンディット問題について マルコフ決定過程 (MDP)について 状態価値関数とベルマン方程式 方策評価と方策改善 2. 様々な手法 モンテカルロ法 TD法 SARSA Q学習 DQN 3. 方策勾配法 方策勾配法 REINFORCE Actor-Critic TRPOとPPO 4. 応用例 カリキュラム学習 PR リンク リンク リンク リンク リンク リンク リンク リンク リンク リンク リンク リンク リンク リンク リンク リンク リンク リンク リンク リンク リンク リンク ホームに戻る