新たな、挑戦的なAGIテストはほとんどのAIモデルを困惑させる

新たな、挑戦的なAGIテストはほとんどのAIモデルを困惑させる

著名なAI研究者フランソワ・ショレ氏が共同設立した非営利団体アーク賞財団は月曜日のブログ投稿で、主要なAIモデルの総合的な知能を測定するための新しい挑戦的なテストを作成したと発表した。

これまでのところ、ARC-AGI-2と呼ばれる新しいテストは、ほとんどのモデルを困惑させています。

Arc Prizeのリーダーボードによると、OpenAIのo1-proやDeepSeekのR1といった「推論」AIモデルは、ARC-AGI-2で1%から1.3%のスコアを獲得しています。GPT-4.5、Claude 3.7 Sonnet、Gemini 2.0 Flashといった強力な非推論モデルは、1%前後のスコアしか獲得していません。

ARC-AGIテストはパズルのような問題で構成されており、AIは異なる色の正方形の集合から視覚パターンを識別し、正しい「答え」のグリッドを生成する必要があります。これらの問題は、AIがこれまでに経験したことのない新しい問題に適応することを促すように設計されています。

アークプライズ財団は、人間の基準値を確立するために、400人以上の被験者にARC-AGI-2を受験させました。平均すると、これらの被験者からなる「パネル」はテストの質問の60%を正答しました。これは、どのモデルのスコアよりもはるかに高い数値でした。

Arc-AGI-2のサンプル問題。画像提供: Arc Prize

Xの投稿で、チョレット氏はARC-AGI-2は、最初のバージョンであるARC-AGI-1よりもAIモデルの実際の知能をより正確に測定できると主張しました。Arc Prize Foundationのテストは、AIシステムが学習に使用したデータ以外で新しいスキルを効率的に獲得できるかどうかを評価することを目的としています。

ショレ氏は、ARC-AGI-1とは異なり、この新しいテストではAIモデルが「総当たり」(膨大な計算能力)に頼って解を見つけることを防いでいると述べた。ショレ氏は以前、これがARC-AGI-1の大きな欠陥であると認めていた。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

最初のテストの欠陥に対処するため、ARC-AGI-2では新たな指標「効率性」が導入されました。また、モデルは記憶に頼るのではなく、パターンを即座に解釈することが求められます。

「知能は、問題を解決する能力や高いスコアを達成する能力だけで定義されるものではありません」と、アーク賞財団の共同創設者であるグレッグ・カムラッド氏はブログ記事に記している。「そうした能力を獲得し、展開する効率性こそが、知能を決定づける重要な要素です。問われている核心的な問いは、『AIはタスクを解決するスキルを獲得できるか?』だけでなく、『どの程度の効率やコストで獲得できるか?』なのです。」

ARC-AGI-1は、2024年12月にOpenAIが高度な推論モデル「o3」をリリースするまで、約5年間無敗を誇っていました。o3は他のすべてのAIモデルを凌駕し、評価において人間のパフォーマンスに匹敵する性能を示しました。しかし、当時私たちが指摘したように、o3のARC-AGI-1におけるパフォーマンス向上には、高額なコストが伴いました。

OpenAI の o3 モデルのバージョンである o3 (low) は、ARC-AGI-1 で初めて新記録を達成し、テストで 75.7% のスコアを獲得しましたが、タスクごとに 200 ドル相当の計算能力を使用して ARC-AGI-2 ではわずか 4% しか獲得できませんでした。

Frontier AIモデルのARC-AGI-1とARC-AGI-2におけるパフォーマンスの比較。画像提供: Arc Prize

ARC-AGI-2の登場は、テクノロジー業界の多くがAIの進歩を測るための新たな、まだ飽和していないベンチマークを求めている中での出来事です。Hugging Faceの共同創業者であるトーマス・ウルフ氏は最近、TechCrunchに対し、AI業界には創造性を含む汎用人工知能の重要な特性を測定するための十分なテストが不足していると述べました。

Arc Prize Foundation は、新しいベンチマークと並行して、開発者がタスクごとにわずか 0.42 ドルを費やしながら ARC-AGI-2 テストで 85% の精度に到達することを競う新しい Arc Prize 2025 コンテストを発表しました。

マックスウェル・ゼフは、TechCrunchのAI専門シニアレポーターです。以前はGizmodo、Bloomberg、MSNBCでAIの台頭やシリコンバレーの銀行危機などを取材してきました。サンフランシスコを拠点としています。取材以外の時間は、ハイキング、サイクリング、ベイエリアのグルメ巡りを楽しんでいます。

Maxwell からの連絡を確認したり連絡を受けたりする場合は、[email protected]にメールを送信するか、Signal の mzeff.88 に暗号化されたメッセージを送信してください。

バイオを見る