AlpacaEval、AlpacaEval 2.0とは?LLMの指示追従性能を測る評価ベンチマークを解説

1. AlpacaEvalとは何か

AlpacaEval は、大規模言語モデル(LLM)の「指示遵守(instruction following)」能力を自動評価するためのベンチマークです。

ユーザから与えられた指示に対して、どれだけ適切で分かりやすい応答ができるかを測ることを目的としています。

はるか
はるか
指示にどれだけうまく応えるか…その評価ってむずかしい。
ふゅか
ふゅか
たしかに!でもその「応え方」を比べる仕組みがあるんだよ!
はるか
はるか
…ほう。モデル同士で差が出るところ。気になる。

2. 何を評価したいのか?

AlpacaEval では、あらかじめ用意された多数の指示文に対して

  • 評価対象モデルの出力
  • ベースラインモデル(現在は GPT-4o など)の出力

を並べて提示し、どちらの応答が望ましいかをGPT-4などモデルに判定させます。

その結果から、

  • ベースラインより優れている割合(win rate)
  • 回答の長さバイアスを補正した指標(length-controlled win rate など)

といったスコアを算出し、指示追従性能を定量的に比較できるようにしています。

3. AlpacaEvalとAlpacaEval2の違い

  • AlpacaEval(初代)
    • ベースライン:Davinci-003
    • 問題:長い回答が有利(length bias)が強い
  • AlpacaEval 2.0
    • ベースライン:GPT-4 Preview / GPT-4o
    • 特徴:length bias を考慮した指標(LC win rate)を標準採用

4. なぜアライメント手法の評価などでよく使われるのか?

SimPO をはじめとする多くのアライメント手法では、

  • 「人間が好む応答」をどれだけ生成できるようになったか
  • ベースラインモデルよりどの程度 “好ましい” 返答を出せているか

を手軽に比較できる指標が必要です。

AlpacaEval は

  • GPT-4 ベースの自動評価で、人手による好みラベルと高い相関を持つことが報告されている
  • 実行コストが比較的低く、再現性も高い

といった理由から、アライメント手法の評価に広く用いられています。

参考

https://github.com/tatsu-lab/alpaca_eval

 

PR
ノートンストア