AIベンチマークをめぐる議論はポケモンにも及んでいる

AIベンチマークをめぐる議論はポケモンにも及んでいる
ポケモン
画像クレジット:ポケモン

ポケモンでさえ、AIベンチマーク論争から逃れることはできない。

先週、Xの投稿が話題となり、Googleの最新モデル「ジェミニ」が、ポケモンゲーム初代三部作でアントロピックが開発した主力モデル「クロード」を凌駕したと主張しました。開発者のTwitch配信によると、ジェミニはラベンダータウンに到達したとのことで、クロードは2月下旬の時点でムーン山に留まっていました。

ジェミニはラベンダータウンに到達した後、ポケモンでは現在文字通りクロードより先を進んでいます

ちなみにライブ視聴回数はたったの 119 回。信じられないほど過小評価されているストリームです pic.twitter.com/8AvSovAI4x

— ジュシュ (@Jush21e8) 2025年4月10日

しかし、この投稿では、ジェミニが有利だったということには触れられていない。

Redditのユーザーが指摘したように、Geminiストリームを運営する開発者は、モデルがゲーム内の「タイル」(例えば伐採可能な木など)を識別できるようにカスタムミニマップを作成しました。これにより、Geminiがゲームプレイの判断を下す前にスクリーンショットを分析する必要性が軽減されます。

ポケモンは、せいぜい半ば真面目なAIベンチマークと言えるでしょう。モデルの能力を測る上で非常に有益なテストであることに異論を唱える人はほとんどいないでしょう。しかし、ベンチマークの実装方法の違いが結果にどのような影響を与えるかを示す、示唆に富む例と言えるでしょう。

例えば、Anthropicは、モデルのコーディング能力を評価するために設計されたベンチマークSWE-bench Verifiedにおいて、最新のAnthropic 3.7 Sonnetモデルについて2つのスコアを報告しました。Claude 3.7 SonnetはSWE-bench Verifiedで62.3%の精度を達成しましたが、Anthropicが開発した「カスタムスキャフォールド」では70.3%の精度を達成しました。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

最近、Metaは新しいモデルの1つであるLlama 4 Maverickを微調整し、特定のベンチマークであるLM Arenaで良好なパフォーマンスを発揮するようにしました。このモデルの標準バージョンは、同じ評価で大幅に低いスコアを示しました。

AIベンチマーク(ポケモンも含む)はそもそも不完全な指標であることを考えると、カスタム実装や非標準実装は状況をさらに混乱させる恐れがあります。つまり、モデルがリリースされても比較が容易になる可能性は低いということです。

トピック

カイル・ウィガーズは2025年6月までTechCrunchのAIエディターを務めていました。VentureBeatやDigital Trendsに加え、Android Police、Android Authority、Droid-Life、XDA-Developersといった様々なガジェットブログにも記事を寄稿しています。音楽療法士のパートナーとマンハッタンに在住。

バイオを見る