スーパーマリオをAIのベンチマークに使っている人がいる

スーパーマリオをAIのベンチマークに使っている人がいる

ポケモンはAIにとって厳しいベンチマークだと思っていただろうか?ある研究者グループは、スーパーマリオブラザーズはさらに厳しいと主張している。

カリフォルニア大学サンディエゴ校の研究機関であるHao AI Labは金曜日、スーパーマリオブラザーズゲームにAIを投入した。AnthropicのClaude 3.7が最も優れたパフォーマンスを示し、続いてClaude 3.5が続いた。GoogleのGemini 1.5 ProとOpenAIのGPT-4oは苦戦した。

念のため言っておきますが、これは1985年に発売されたオリジナル版の『スーパーマリオブラザーズ』と全く同じものではありません。このゲームはエミュレーターで動作し、AIがマリオを操作できるようにGamingAgentというフレームワークと統合されていました。

スーパーマリオブラザーズのAIベンチマーク
画像クレジット: Hao Lab

ハオ氏が社内開発したGamingAgentは、「障害物や敵が近くにいる場合は、左に移動/ジャンプして回避する」といった基本的な指示やゲーム内のスクリーンショットをAIに入力しました。AIはそれを基に、マリオを操作するためのPythonコード形式の入力を生成しました。

それでもハオ氏は、ゲームによって各モデルは複雑な動きを計画し、ゲームプレイ戦略を練ることを「学習」せざるを得なかったと述べています。興味深いことに、OpenAIのo1のような推論モデルは、問題を段階的に「考え」、解決策を導き出しますが、ほとんどのベンチマークでは概ね優れているにもかかわらず、「非推論」モデルよりもパフォーマンスが低いことが研究室の調査で判明しました。

研究者によると、推論モデルがこのようなリアルタイムゲームをプレイするのが難しい主な理由の一つは、行動を決定するのに時間がかかること、通常は数秒かかることだ。スーパーマリオブラザーズではタイミングがすべてだ。1秒の違いが、ジャンプを安全にクリアできるか、落下して死んでしまうかの違いになり得るのだ。

ゲームは数十年にわたりAIのベンチマークとして利用されてきました。しかし、一部の専門家は、AIのゲームスキルと技術の進歩を関連付けることの妥当性に疑問を呈しています。現実世界とは異なり、ゲームは抽象的で比較的単純な傾向があり、理論上はAIの訓練に無限のデータを提供します。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

最近の派手なゲームベンチマークは、OpenAIの研究科学者であり創設メンバーでもあるアンドレイ・カルパシー氏が「評価の危機」と呼んだ状況を示しています。

「現時点では、どのような [AI] 指標に注目すべきか、よく分からない」と彼は X の投稿に書いた。「要するに、現時点ではこれらのモデルがどれほど優れているか、よく分からないというのが私の感想だ」

少なくとも、AIがマリオをプレイするのを見ることはできます。

カイル・ウィガーズは2025年6月までTechCrunchのAIエディターを務めていました。VentureBeatやDigital Trendsに加え、Android Police、Android Authority、Droid-Life、XDA-Developersといった様々なガジェットブログにも記事を寄稿しています。音楽療法士のパートナーとマンハッタンに在住。

バイオを見る