更新:2024/10/09
【Transformers】LLMにおける文脈的なlogitの意味
ふゅか
ロジットって、確率を実数に変換するための関数だったよね?ロジスティック回帰とかで使った記憶がある!
はるか
うん、確率を取り扱う時によく出てくる。LLMでも少し違った意味で使われるけど。
1. ロジット(logit)とは?
ロジット(logit)は、統計や機械学習でよく使われる概念です。LLMにおける論文や本を読んでいると、ロジットという単語が出てきますが、このロジットは文脈によって意味が違います。
1.1. ロジットの基本的な定義
ロジットは、確率を実数に変換するための関数として定義されています。具体的には、確率 \(p\) に対してロジットは次の式で表されます。
$$\text{logit}(p) = \log\left( \frac{p}{1 – p} \right) = \log(p) – \log(1 – p)$$
この式は、確率値 を実数に変換する関数です。例えば、ロジスティック回帰では、このロジット関数を使って確率を実数に変換し、線形モデルで使える形にしています。
2. LLMにおけるロジットの意味
一方で、LLM(大規模言語モデル)における「ロジット」は、少し異なる文脈で使われています。
LLMは、次に出現するトークン(単語や文字)の確率を予測する際に、ソフトマックス関数というものを使って出力を確率に変換します。このソフトマックス関数に入力する前の、いわば「生のスコア」が「ロジット」と呼ばれています。
ふゅか
LLMでは入力系列のことをロジットって言うんだよね。ソフトマックスに入れる前のやつ!
はるか
そう。それが次のトークンの確率を決めるベースになる。
PR
-
【PyTorch】Tensorの統計量、平均、分散、標準偏差について
-
PyTorchにおけるモデルの保存と読み込み!2つの方法
-
-
ValueError: The checkpoint you are trying to load has model type `gemma2` but Transformers does not recognize this architecture.の解決方法!gemma2の読み込み
-
数学に特化した言語モデル!NuminaMath-7B-TIRグラフの表示や数学の問題を解く
-
GRPO(Group Relative Policy Optimization)の “数式が言いたいこと” を噛み砕いてみる
