毎週日曜日、ニューヨーク・タイムズのクロスワードパズルの達人であるNPRの司会者ウィル・ショーツが、長寿コーナー「サンデー・パズル」で何千人ものリスナーにクイズを出題します。あまり事前知識がなくても解けるように作られていますが、熟練した参加者にとっても難しい問題が多いのが現状です。
そのため、一部の専門家は、これが AI の問題解決能力の限界をテストする有望な方法だと考えています。
最近の研究で、ウェルズリー大学、オーバリン大学、テキサス大学オースティン校、ノースイースタン大学、チャールズ大学、そしてスタートアップ企業のCursorからなる研究チームが、サンデーパズルのエピソードから出題された謎を用いてAIベンチマークを作成した。研究チームによると、このテストによって驚くべき知見が得られたという。例えば、OpenAIのo1をはじめとする推論モデルは、時に「諦めて」、正しくない答えを提示することがあるという。
「人間が一般的な知識だけで理解できる問題のベンチマークを開発したいと考えました」と、ノースイースタン大学のコンピューターサイエンスの教員であり、この研究の共著者の一人であるアルジュン・グハ氏はTechCrunchに語った。
AI業界は現在、ベンチマークに関して少々難題を抱えています。AIモデルの評価に一般的に用いられるテストの多くは、博士レベルの数学や科学の問題に対する能力といった、一般ユーザーには関係のないスキルを測るものです。一方で、多くのベンチマークは、比較的最近リリースされたものでさえ、急速に飽和状態に近づいています。
サンデー・パズルのような公共ラジオのクイズゲームの利点は、難解な知識を試すことがなく、モデルが問題を解くのに「暗記」に頼ることができないような問題が作られていることだとグハ氏は説明した。
「これらの問題が難しいのは、問題を解決するまで、つまり全てが一気に繋がるまで、意味のある進歩を遂げるのが本当に難しいからです。そのためには、洞察力と消去法の組み合わせが必要です」とグハ氏は述べた。
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日
もちろん、完璧なベンチマークなどありません。サンデーパズルは米国中心で、英語のみに対応しています。また、クイズは公開されているため、それらで訓練されたモデルが「不正行為」をする可能性もあるのですが、グハ氏はそのような証拠を見たことがないと述べています。
「毎週新しい質問がリリースされており、最新の質問はまさに未知のものになると予想されます」と彼は付け加えた。「私たちはベンチマークを常に最新の状態に保ち、モデルのパフォーマンスが時間の経過とともにどのように変化するかを追跡するつもりです。」
研究者たちが試した約600問の日曜パズルの謎解きベンチマークでは、o1やDeepSeekのR1といった推論モデルが他をはるかに凌駕する性能を示しました。推論モデルは結果を出す前に徹底的に事実検証を行うため、AIモデルが陥りやすい落とし穴を回避できます。ただし、その代償として、推論モデルは解を導き出すまでに数秒から数分ほど時間がかかります。
少なくとも一つのモデル、DeepSeekのR1は、サンデーパズルの一部の質問に対して、間違っていると分かっている解答を提示します。R1は「諦めました」とそのまま述べ、その後、一見ランダムに選ばれた間違った答えを続けます。この行動は、人間にもきっと共感できるでしょう。
モデルは他にも奇妙な選択をします。例えば、間違った答えを出した直後に撤回し、より良い答えを導き出そうとしますが、また失敗します。また、いつまでも「考える」ことに固執し、答えに対して意味不明な説明をしたり、すぐに正しい答えにたどり着いた後、明確な理由もなく別の答えを検討したりします。
「難しい問題では、R1は文字通り『イライラしている』と言っているんです」とグハ氏は言う。「モデルが人間の発言を模倣しているのを見るのは面白かったです。推論における『イライラ』がモデルの結果の質にどう影響するかはまだ分かりません。」

ベンチマークで現在最も優れたパフォーマンスを発揮しているモデルは、スコア59%のo1で、これに最近リリースされた「推論努力」の高いo3-mini(47%)が続いています。(R1のスコアは35%でした。)次のステップとして、研究者たちはテストを他の推論モデルにも拡大し、これらのモデルを強化できる領域を特定することを計画しています。

「優れた推論能力を持つために博士号は必要ありません。ですから、博士レベルの知識を必要としない推論ベンチマークを設計することは可能であるはずです」とグハ氏は述べた。「より広範なアクセスを持つベンチマークは、より幅広い研究者が結果を理解し分析することを可能にし、ひいては将来的により良い解決策につながる可能性があります。さらに、最先端のモデルがすべての人に影響を与える環境でますます活用されるようになるにつれて、誰もがこれらのモデルが何ができるのか、そして何ができないのかを直感的に理解できるようになるべきだと考えています。」
カイル・ウィガーズは2025年6月までTechCrunchのAIエディターを務めていました。VentureBeatやDigital Trendsに加え、Android Police、Android Authority、Droid-Life、XDA-Developersといった様々なガジェットブログにも記事を寄稿しています。音楽療法士のパートナーとマンハッタンに在住。
バイオを見る