機械学習・ディープラーニング
-
AlpacaEval、AlpacaEval 2.0とは?LLMの指示追従性能を測る評価ベンチマークを解説
AlpacaEvalとは何か AlpacaEval は、大規模言語モデル(LLM)の「指示遵守(instruction following)」能力を自動評価するためのベンチマークです。 ユーザから与え …
-
方策反復法とは?意味とベルマン方程式との関係について
方策反復法 強化学習における「最適な行動ルール(方策)」を求めるための基本的な手法の1つが、方策反復法(Policy Iteration)です。これは 動的計画法(Dynamic Programmin …
-
REINFORCEとは?方策勾配定理との関係をわかりやすく解説
REINFORCE REINFORCE は、強化学習における「方策勾配法(Policy Gradient)」の最も基本的な手法です。エージェントが行動を選び、その結果得られる「収益(return)」の …
-
方策勾配法と方策勾配定理の意味について解説
方策勾配法とは? 方策勾配法(Policy Gradient)は、強化学習の代表的な手法のひとつです。 AI(エージェント)が「どのように行動すれば報酬を最大化できるか」を学ぶ際、方策勾配法では行動の …
-
方策評価と方策改善とは?強化学習の基本サイクルをわかりやすく解説
強化学習では、エージェント(学習者)が環境とのやり取りを通じて、 「どう行動すれば収益を最大化できるか」を学びます。 その中で中心的な考え方となるのが、方策評価(policy evaluation)と …
-
Bellman方程式と状態価値関数、行動価値関数(Q関数)について
強化学習でよく登場するのが「状態価値関数」$v_\pi(s)$ と「行動価値関数(Q関数)」$q_pi(s,a)$ です。 どちらも「将来の収益(割引した報酬の合計)の期待値」を測るものですが、着目す …
-
RNN(Recurrent Neural Network:再帰型ニューラルネットワーク):時系列データの学習を支える仕組み
RNNとは? RNNは時系列データや文章のように「順序が重要なデータ」を扱うためのニューラルネットワークです。 通常のニューラルネットワーク(全結合層など)は「入力 → 出力」で一度きりの変換をします …
-
GRPO(Group Relative Policy Optimization)の “数式が言いたいこと” を噛み砕いてみる
GRPO(Group Relative Policy Optimization)の整理 登場する記号の整理 記号 意味 直感的なイメージ $q$ 質問(プロンプト) 1 つの入力 $\{o_1,\do …