ホーム / 機械学習・ディープラーニング / 強化学習について 本ページはプロモーション(PR)が含まれています 機械学習・ディープラーニング 更新日: 2025/10/09 強化学習について 目次 強化学習の基礎 様々な手法 方策勾配法 応用例 強化学習の基礎 バンディット問題について マルコフ決定過程 (MDP)について 状態価値関数とベルマン方程式 方策評価と方策改善 方策反復 価値反復 様々な手法 モンテカルロ法 TD法 SARASA Q学習 DQN 方策勾配法 方策勾配法 REINFORCE Actor-Critic TRPOとPPO 応用例 カリキュラム学習 ホームに戻る