方策評価と方策改善とは?強化学習の基本サイクルをわかりやすく解説

強化学習では、エージェント(学習者)が環境とのやり取りを通じて、
「どう行動すれば収益を最大化できるか」を学びます。
その中で中心的な考え方となるのが、方策評価(policy evaluation)方策改善(policy improvement)です。

この2つはセットで使われ、最適な行動方針(方策)を導くための重要な仕組みです。
この記事では、それぞれの意味と役割、そして両者の関係をわかりやすく解説します。

はるか
はるか
強化学習って、エージェントが「どう動けば得をするか」を学ぶ。
ふゅか
ふゅか
そうそう!試行錯誤しながら、報酬を一番多くもらえるように行動を変えていく感じね!

1. 方策とは何か

まず「方策(policy)」とは、
エージェントが各状態でどの行動をとるかを決めるルールのことです。

たとえば、ロボット掃除機であれば
「部屋の角にいるときは右に進む」「ゴミを検知したら停止する」
といった行動ルールが方策にあたります。

数式で表すと、次のように条件付確率で書けます。

$$ \pi(a|s) = P(\text{行動 } a \text{ を状態 } s \text{ で選ぶ確率}) $$

2. 方策評価(Policy Evaluation)とは

方策評価とは、
「今の方策 π がどれくらい良いか」を数値で評価することです。

具体的には、方策 π に従って行動したときに、
各状態でどのくらいの収益(将来の報酬の合計)が得られるかを計算します。

このとき登場するのが、価値関数(value function)です。

2.1. 価値関数の定義

$$V^{\pi}(s) = \mathbb{E}_{\pi}\left[ \sum_{t=0}^{\infty} \gamma^t R_{t+1} \mid S_0 = s \right] $$

ここで:

  • \( V^{\pi}(s) \):方策 π のもとでの状態 (s) の価値
  • \( R_{t+1} \):時刻 t に得られる報酬
  • \( \gamma\):将来の報酬をどの程度重視するかを表す割引率(0〜1)

つまり、価値関数とは「将来得られる報酬の期待値」です。
この値が大きいほど、その方策は良いといえます。

3. 方策改善(Policy Improvement)とは

方策改善とは、
「今の方策をより良くする」ために行動の選び方を見直すことです。

方策評価で得られた価値関数を利用して、
「今後もっと高い報酬が得られる行動はどれか?」を考え、方策を更新します。

4. まとめ

用語 意味 目的
方策評価 現在の方策の価値(期待報酬)を求める 今の方策がどれだけ良いかを数値化する
方策改善 方策評価の結果をもとに行動ルールを改善する 価値をさらに高めるように更新する

最終的に、このサイクルを繰り返すことでエージェントは最適方策にたどり着きます。

5. おわりに

「方策評価」と「方策改善」は、
強化学習の基礎であるだけでなく、
より複雑なアルゴリズム(DQNやActor-Criticなど)の根底にも共通しています。

 

PR
ノートンストア