方策評価と方策改善とは?強化学習の基本サイクルをわかりやすく解説

強化学習では、エージェント(学習者)が環境とのやり取りを通じて、
「どう行動すれば収益を最大化できるか」を学びます。
その中で中心的な考え方となるのが、方策評価(policy evaluation)と方策改善(policy improvement)です。
この2つはセットで使われ、最適な行動方針(方策)を導くための重要な仕組みです。
この記事では、それぞれの意味と役割、そして両者の関係をわかりやすく解説します。


1. 方策とは何か
まず「方策(policy)」とは、
エージェントが各状態でどの行動をとるかを決めるルールのことです。
たとえば、ロボット掃除機であれば
「部屋の角にいるときは右に進む」「ゴミを検知したら停止する」
といった行動ルールが方策にあたります。
数式で表すと、次のように条件付確率で書けます。
$$ \pi(a|s) = P(\text{行動 } a \text{ を状態 } s \text{ で選ぶ確率}) $$
2. 方策評価(Policy Evaluation)とは
方策評価とは、
「今の方策 π がどれくらい良いか」を数値で評価することです。
具体的には、方策 π に従って行動したときに、
各状態でどのくらいの収益(将来の報酬の合計)が得られるかを計算します。
このとき登場するのが、価値関数(value function)です。
2.1. 価値関数の定義
$$V^{\pi}(s) = \mathbb{E}_{\pi}\left[ \sum_{t=0}^{\infty} \gamma^t R_{t+1} \mid S_0 = s \right] $$
ここで:
- \( V^{\pi}(s) \):方策 π のもとでの状態 (s) の価値
- \( R_{t+1} \):時刻 t に得られる報酬
- \( \gamma\):将来の報酬をどの程度重視するかを表す割引率(0〜1)
つまり、価値関数とは「将来得られる報酬の期待値」です。
この値が大きいほど、その方策は良いといえます。
3. 方策改善(Policy Improvement)とは
方策改善とは、
「今の方策をより良くする」ために行動の選び方を見直すことです。
方策評価で得られた価値関数を利用して、
「今後もっと高い報酬が得られる行動はどれか?」を考え、方策を更新します。
4. まとめ
用語 | 意味 | 目的 |
---|---|---|
方策評価 | 現在の方策の価値(期待報酬)を求める | 今の方策がどれだけ良いかを数値化する |
方策改善 | 方策評価の結果をもとに行動ルールを改善する | 価値をさらに高めるように更新する |
最終的に、このサイクルを繰り返すことでエージェントは最適方策にたどり着きます。
5. おわりに
「方策評価」と「方策改善」は、
強化学習の基礎であるだけでなく、
より複雑なアルゴリズム(DQNやActor-Criticなど)の根底にも共通しています。