機械学習・ディープラーニング
-
方策反復法とは?意味とベルマン方程式との関係について
方策反復法 強化学習における「最適な行動ルール(方策)」を求めるための基本的な手法の1つが、方策反復法(Policy Iteration)です。これは 動的計画法(Dynamic Programmin …
-
REINFORCEとは?方策勾配定理との関係をわかりやすく解説
REINFORCE REINFORCE は、強化学習における「方策勾配法(Policy Gradient)」の最も基本的な手法です。エージェントが行動を選び、その結果得られる「収益(return)」の …
-
方策勾配法と方策勾配定理の意味について解説
方策勾配法とは? 方策勾配法(Policy Gradient)は、強化学習の代表的な手法のひとつです。 AI(エージェント)が「どのように行動すれば報酬を最大化できるか」を学ぶ際、方策勾配法では行動の …
-
カリキュラム学習(Curriculum Learning)とは?簡単なことからAIを育てる方法
AIの学習にも「教え方の順序」が大切です。 私たち人間も、新しいことを学ぶときには「まずは基礎から」始めて、少しずつ難しい内容に進んでいきますよね。 この考え方をAIに取り入れたのが、カリキュラム学習 …
-
Bellman方程式と状態価値関数、行動価値関数(Q関数)について
強化学習でよく登場するのが「状態価値関数」$v_\pi(s)$ と「行動価値関数(Q関数)」$q_pi(s,a)$ です。 どちらも「将来の収益(割引した報酬の合計)の期待値」を測るものですが、着目す …
-
RNN(Recurrent Neural Network:再帰型ニューラルネットワーク):時系列データの学習を支える仕組み
RNNとは? RNNは時系列データや文章のように「順序が重要なデータ」を扱うためのニューラルネットワークです。 通常のニューラルネットワーク(全結合層など)は「入力 → 出力」で一度きりの変換をします …
-
GRPO(Group Relative Policy Optimization)の “数式が言いたいこと” を噛み砕いてみる
GRPO(Group Relative Policy Optimization)の整理 登場する記号の整理 記号 意味 直感的なイメージ $q$ 質問(プロンプト) 1 つの入力 $\{o_1,\do …
-
LLMにおける「reasoning」とは? — わかりやすく解説
最近、AIや大規模言語モデル(LLM)について調べていると、「reasoning」という言葉をよく目にするかもしれません。 でも、「reasoningって何?」「普通の文章生成と何が違うの?」と疑問に …