機械学習・ディープラーニング

AlpacaEval、AlpacaEval 2.0とは？LLMの指示追従性能を測る評価ベンチマークを解説

AlpacaEvalとは何か AlpacaEval は、大規模言語モデル（LLM）の「指示遵守（instruction following）」能力を自動評価するためのベンチマークです。ユーザから与え …
方策反復法とは？意味とベルマン方程式との関係について

方策反復法強化学習における「最適な行動ルール（方策）」を求めるための基本的な手法の1つが、方策反復法（Policy Iteration）です。これは動的計画法（Dynamic Programmin …
REINFORCEとは？方策勾配定理との関係をわかりやすく解説

REINFORCE REINFORCE は、強化学習における「方策勾配法（Policy Gradient）」の最も基本的な手法です。エージェントが行動を選び、その結果得られる「収益（return）」の …
方策勾配法と方策勾配定理の意味について解説

方策勾配法とは？方策勾配法（Policy Gradient）は、強化学習の代表的な手法のひとつです。 AI（エージェント）が「どのように行動すれば報酬を最大化できるか」を学ぶ際、方策勾配法では行動の …
方策評価と方策改善とは？強化学習の基本サイクルをわかりやすく解説

強化学習では、エージェント（学習者）が環境とのやり取りを通じて、「どう行動すれば収益を最大化できるか」を学びます。その中で中心的な考え方となるのが、方策評価（policy evaluation）と …
Bellman方程式と状態価値関数、行動価値関数（Q関数）について

強化学習でよく登場するのが「状態価値関数」$v_\pi(s)$ と「行動価値関数（Q関数）」$q_pi(s,a)$ です。どちらも「将来の収益（割引した報酬の合計）の期待値」を測るものですが、着目す …
RNN（Recurrent Neural Network：再帰型ニューラルネットワーク）：時系列データの学習を支える仕組み

RNNとは？ RNNは時系列データや文章のように「順序が重要なデータ」を扱うためのニューラルネットワークです。通常のニューラルネットワーク（全結合層など）は「入力 → 出力」で一度きりの変換をします …
GRPO（Group Relative Policy Optimization）の “数式が言いたいこと” を噛み砕いてみる

GRPO（Group Relative Policy Optimization）の整理登場する記号の整理記号意味直感的なイメージ $q$ 質問（プロンプト） 1 つの入力 $\{o_1,\do …

1 2 3 ... 12 次へ