ディープマインドは、自社のAIが国際数学オリンピックの金メダリストよりも優れたパフォーマンスを発揮していると主張している。

ディープマインドは、自社のAIが国際数学オリンピックの金メダリストよりも優れたパフォーマンスを発揮していると主張している。

Google の有力 AI 研究機関である Google DeepMind が開発した AI システムは、国際数学コンテストの幾何学問題を解く際に金メダリストの平均スコアを上回ったようだ。

AlphaGeometry2と呼ばれるこのシステムは、DeepMindが昨年1月にリリースしたシステム「AlphaGeometry」の改良版です。新たに発表された研究論文によると、AlphaGeometry2を開発したDeepMindの研究者たちは、このAIが過去25年間に高校生を対象とした数学コンテストである国際数学オリンピック(IMO)で行われた幾何学問題の84%を解くことができると主張しています。

DeepMindが高校レベルの数学コンテストにこだわる理由は何でしょうか?それは、同研究所が、より優れたAIの鍵は、難しい幾何学問題、特にユークリッド幾何学の問題を解く新しい方法を発見することにあると考えているからです。

数学の定理を証明したり、ある定理(例えばピタゴラスの定理)がなぜ正しいのかを論理的に説明したりするには、推論能力と、解決策に至る複数の可能なステップから選択する能力の両方が必要です。DeepMindの考えが正しければ、こうした問題解決能力は将来の汎用AIモデルの有用な構成要素となる可能性があります。

実際、DeepMindは今年の夏、AlphaGeometry2と形式数学推論のためのAIモデルであるAlphaProofを組み合わせたシステムのデモを行い、2024年IMOの6問中4問を解くことができました。幾何学の問題に加えて、このようなアプローチは数学や科学の他の分野にも応用でき、例えば複雑な工学計算の支援などに活用できます。

AlphaGeometry2 には、Google の AI モデル Gemini ファミリーの言語モデルや「シンボリックエンジン」など、複数のコア要素が含まれています。Gemini モデルは、数学的な規則を用いて問題の解を推論するシンボリックエンジンが、与えられた幾何学定理の実現可能な証明に到達するのを支援します。

IMO における典型的なジオメトリ図。
IMO試験における典型的な幾何学問題の図。画像提供: Google (新しいウィンドウで開きます)

オリンピックの幾何学問題は、点、直線、円といった「構成要素」を追加しないと解けない図に基づいています。AlphaGeometry2のGeminiモデルは、図に追加すると役立つ構成要素を予測し、エンジンは推論を行う際にこの予測を参照します。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

AlphaGeometry2のGeminiモデルは、基本的に、形式的な数学言語で手順と構成をエンジンに提案し、エンジンは特定のルールに従ってこれらの手順の論理的な一貫性をチェックします。探索アルゴリズムにより、AlphaGeometry2は複数の解探索を並行して実行し、有用な可能性のある発見を共通の知識ベースに保存することができます。

AlphaGeometry2 では、Gemini モデルの提案とシンボリック エンジンの既知の原理を組み合わせた証明に到達したときに、問題が「解決された」とみなされます。

証明をAIが理解できる形式に変換する作業の複雑さのため、使用可能な幾何学の学習データが不足しています。そこでDeepMindは、AlphaGeometry2の言語モデルを学習するための独自の合成データを作成し、3億件を超える様々な複雑さの定理と証明を生成しました。

DeepMindチームは、過去25年間(2000年から2024年)のIMOコンペティションから45問の幾何学問題を選択しました。これには、線形方程式や、平面上で幾何学的物体を移動させる方程式などが含まれています。そして、これらを50問のより大規模な問題集に「翻訳」しました。(技術的な理由により、一部の問題は2つに分割する必要がありました。)

論文によると、AlphaGeometry2 は 50 問中 42 問を解き、金メダリストの平均スコア 40.9 をクリアした。

確かに、限界はあります。技術的な問題のため、AlphaGeometry2は点数が可変の問題、非線形方程式、不等式を含む問題を解くことができません。また、AlphaGeometry2は幾何学で金メダルレベルのパフォーマンスを達成した最初のAIシステムではありませんが、この規模の問題セットで金メダルレベルのパフォーマンスを達成したのは初めてです。

AlphaGeometry2は、さらに難解なIMO問題群でも成績が悪化しました。DeepMindチームは、さらなる難問として、数学の専門家によってIMO試験にノミネートされたものの、まだ大会には出題されていない問題(合計29問)を選択しました。AlphaGeometry2はこれらの問題のうち20問しか解けませんでした。

それでも、この研究結果は、AI システムを記号操作 (つまり、ルールを使用して知識を表す記号を操作する) に基づいて構築すべきか、それとも明らかに脳に似たニューラル ネットワークに基づいて構築すべきかという議論に火をつけることになりそうだ。

AlphaGeometry2 はハイブリッド アプローチを採用しています。Gemini モデルにはニューラル ネットワーク アーキテクチャが採用されており、シンボリック エンジンはルールベースです。

ニューラルネットワーク技術の支持者は、音声認識から画像生成に至るまで、膨大な量のデータと計算によってのみ、知的な行動を実現できると主張しています。ワープロソフトで行を編集するなど、特定の処理に特化した記号操作規則を定義することでタスクを解決する記号システムとは対照的に、ニューラルネットワークは統計的近似と事例からの学習を通じてタスクを解決しようとします。 

ニューラルネットワークは、OpenAIのo1「推論」モデルのような強力なAIシステムの基盤です。しかし、シンボリックAIの支持者たちは、ニューラルネットワークが万能ではないと主張します。シンボリックAIは、世界の知識を効率的に符号化し、複雑なシナリオを推論し、どのようにして答えに至ったかを「説明」する点で、より優れた立場にあるかもしれない、と彼らは主張します。

「こうしたベンチマークにおいて目覚ましい進歩が続いている一方で、言語モデル、特に最近の『推論』機能を備えたモデルは、単純な常識的な問題に依然として苦戦を強いられているという、この対照的な状況は衝撃的です」と、カーネギーメロン大学でAIを専門とするコンピュータサイエンス教授のヴィンス・コニツァー氏はTechCrunchに語った。「すべてが見せかけだとは思いませんが、次世代のシステムにどのような動作を期待すべきか、まだよく分かっていないことを示しています。これらのシステムは非常に大きな影響を与える可能性が高いため、私たちは早急にそれらとそれらがもたらすリスクをより深く理解する必要があります。」

AlphaGeometry2は、記号操作とニューラルネットワークという2つのアプローチ を組み合わせること が、汎用的なAIの探求における有望な道筋であることを実証していると言えるでしょう。実際、DeepMindの論文によると、同じくニューラルネットワークアーキテクチャを持つo1は、AlphaGeometry2が解けたIMOの問題を一つも解くことができませんでした。

これは永遠に続くわけではないかもしれない。DeepMindチームは論文の中で、AlphaGeometry2の言語モデルが記号エンジンの助けを借りずに問題の部分的な解を生成できるという予備的な証拠を発見したと述べた。

「この結果は、大規模言語モデルが(記号エンジンのような)外部ツールに依存せずに自立できるという考えを裏付けている」とディープマインドチームは論文に記している。「しかし、(モデルの)速度が向上し、幻覚が完全に解決されるまで、このツールは数学アプリケーションにとって不可欠なままだろう。」