なぜほとんどのAIベンチマークは私たちにほとんど何も教えてくれないのか

なぜほとんどのAIベンチマークは私たちにほとんど何も教えてくれないのか

火曜日、スタートアップ企業のAnthropicは、クラス最高のパフォーマンスを実現すると主張する生成AIモデル群をリリースしました。そのわずか数日後、ライバル企業のInflection AIは、OpenAIのGPT-4を含む、現在最も高性能なモデルのいくつかに匹敵する品質を誇ると主張するモデルを発表しました。

AnthropicとInflectionは、自社のモデルが客観的な基準で競合モデルに匹敵、あるいは凌駕していると主張する最初のAI企業ではありません。GoogleはGeminiモデルのリリース時に同様の主張をしており、OpenAIもGPT-4とその前身であるGPT-3、GPT-2、GPT-1について同様の主張をしています。他にも同様の主張は数多くあります。

しかし、一体どのような指標について語っているのでしょうか?ベンダーがモデルが最先端のパフォーマンスや品質を実現していると言う場合、それは一体何を意味するのでしょうか?もっと重要なのは、技術的に他のモデルよりも「パフォーマンス」が優れているモデルは、実際に目に見える形で向上していると感じられるのでしょうか?

最後の質問に関しては、そうではないでしょう。

その理由、というか問題は、AI 企業がモデルの長所と短所を定量化するために使用するベンチマークにあります。

難解な対策

現在、AIモデル、特にOpenAIのChatGPTやAnthropicのClaudeといったチャットボット向けモデルに最も広く利用されているベンチマークは、平均的な人がテスト対象のモデルとどのようにインタラクションするかをうまく捉えていません。例えば、Anthropicが最近の発表で引用したベンチマークの一つであるGPQA(「大学院レベルのGoogle対応Q&Aベンチマーク」)には、博士課程レベルの生物学、物理学、化学の質問が数百問も含まれています。しかし、ほとんどの人はメールの返信、カバーレターの作成、自分の気持ちを伝えるといったタスクにチャットボットを利用しています。

AI研究の非営利団体アレンAI研究所の科学者ジェシー・ドッジ氏は、業界は「評価の危機」に陥っていると語る。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

「ベンチマークは一般的に静的で、単一の能力の評価に焦点が絞られています。例えば、モデルの単一領域における事実性や、数学的推論の多肢選択問題を解く能力などです」と、ドッジ氏はTechCrunchのインタビューで語った。「評価に使われるベンチマークの多くは3年以上前のもので、AIシステムが主に研究目的で使われ、実際のユーザーがほとんどいなかった時代のものです。さらに、人々は生成AIを様々な方法で利用しており、非常に創造的です。」

間違った指標

最もよく使われているベンチマークが全く役に立たないというわけではありません。ChatGPTの博士号レベルの数学の問題を誰かが問うているのは間違いありません。しかし、生成AIモデルがマスマーケット向けの「万能型」システムとして位置付けられるようになるにつれて、古いベンチマークは適用範囲が狭まってきています。

コーネル大学でAIと倫理を研究している博士研究員のデイビッド・ウィダー氏は、一般的なベンチマークでテストされるスキルの多くは、小学校レベルの算数の問題を解くことから文章に時代錯誤が含まれているかどうかを見分けることまで、大多数のユーザーには決して関係がないだろうと指摘する。

「従来のAIシステムは、特定の状況における特定の問題を解決するために構築されることが多かった(例えば、医療AIエキスパートシステムなど)。そのため、特定の状況において優れたパフォーマンスとは何かを深く文脈的に理解することがより容易でした」とウィダー氏はTechCrunchに語った。「システムがますます『汎用』として見られるようになるにつれ、これは難しくなっています。そのため、様々な分野の様々なベンチマークでモデルをテストすることに重点が置かれるようになっています。」

エラーやその他の欠陥

ユースケースとの不一致は別として、一部のベンチマークが測定しようとしているものを適切に測定しているかどうかについては疑問があります。

モデルにおける常識的推論能力を評価するために設計されたテストであるHellaSwagの分析によると、テスト問題の3分の1以上にタイプミスや「意味不明な」記述が含まれていることが判明しました。一方、Google、OpenAI、Anthropicなどのベンダーが、自社のモデルが論理問題を推論できる証拠として挙げているベンチマークであるMMLU(Massive Multitask Language Understandingの略)は、暗記で解けるような問題が出題します。

ヘラスワグ
HellaSwag ベンチマークからのテスト問題。

「(MMLUのようなベンチマークは)2つのキーワードを記憶し、関連付けることに重点を置いています」とウィダー氏は述べた。「(関連する)論文をかなり早く見つけて質問に答えることはできますが、それが因果メカニズムを理解していることを意味するわけではありません。また、その因果メカニズムの理解を活用して、予期せぬ状況における新たな複雑な問題を実際に推論し、解決できるとも限りません。モデルでも同じです。」

壊れたものを直す

つまり、ベンチマークは壊れているということです。しかし、修正することはできるのでしょうか?

ドッジ氏は、もっと人間が関与すれば、そうできると考えています。

「ここでの正しい進路は、評価ベンチマークと人間による評価を組み合わせることです」と彼は述べた。「実際のユーザークエリでモデルを操作し、その応答の良し悪しを評価するために人を雇うのです。」

一方、ウィダー氏は、たとえタイプミスのような分かりやすいエラーを修正したとしても、現在のベンチマークが、生成AIモデルの大多数のユーザーにとって有益な情報となるレベルまで改善されるかどうかについては、あまり楽観的ではないと考えている。むしろ、モデルのテストは、そのモデルの下流への影響、そしてその影響が(良い影響であれ悪い影響であれ)影響を受ける人々にとって望ましいと認識されるかどうかに焦点を当てるべきだと考えている。

「AIモデルをどのような具体的な文脈目標に活用したいのかを問いかけ、そうした文脈においてAIモデルが成功するか、あるいは実際に成功しているかを評価したい」と彼は述べた。「そして願わくば、そのプロセスには、そうした文脈でAIを活用すべきかどうかの評価も含まれると期待している」