機械学習モデルはどのようにしてその機能を実現するのでしょうか?そして、私たちが理解しているのと同じように、本当に「思考」したり「推論」したりしているのでしょうか?これは哲学的な問いであると同時に、実用的な問いでもあります。しかし、金曜日に発表された新しい論文によると、少なくとも現時点では、その答えは明確に「ノー」であることが示唆されています。
AppleのAI研究者グループは木曜日、「大規模言語モデルにおける数学的推論の限界を理解する」という論文を一般公開しました。記号学習やパターン再現といったより深い概念は少々難解ですが、研究の基本概念は非常に理解しやすいものです。
次のような簡単な数学の問題を解くように頼んだとします。
オリバーは金曜日に44個のキウイを摘みました。そして土曜日には58個のキウイを摘みました。日曜日には金曜日の2倍の数のキウイを摘みました。オリバーは何個のキウイを持っているでしょうか?
答えは明らかに44 + 58 + (44 * 2) = 190です。大規模言語モデル(LLM)は実際には算術演算の精度にばらつきがありますが、このような問題は比較的確実に解くことができます。しかし、もしここに少しランダムな追加情報、例えば次のようなものを加えたらどうなるでしょうか。
オリバーは金曜日に44個のキウイを摘みました。土曜日には58個のキウイを摘みました。日曜日には金曜日の2倍の数のキウイを摘みましたが、そのうち5個は平均より少し小さかったです。オリバーは何個のキウイを持っているでしょうか?
同じ数学の問題ですよね?もちろん、小学生でも小さなキウイでもキウイであることは分かります。しかし、実はこの追加データポイントは最先端の法学修士課程でさえも混乱させてしまうのです。GPT-o1-miniの見解は以下の通りです。
日曜日に、これらのキウイのうち5個が平均より小さかったので、日曜日の合計からそれらを差し引く必要があります。88個(日曜日のキウイ)- 5個(小さめのキウイ)= 83個
これは研究者が軽く変更した何百もの質問のうちの単なる一例ですが、そのほとんどすべてにおいて、その質問を試みたモデルの成功率が大幅に低下しました。

では、なぜそうなるのでしょうか?問題を理解しているモデルが、なぜ無関係なランダムな詳細によってこれほど簡単に混乱してしまうのでしょうか?研究者たちは、この確実な失敗モードは、モデルが実際には問題を全く理解していないことを意味していると主張しています。訓練データによって、モデルは状況によっては正しい答えを返すことができますが、小さなキウイを数えるかどうかなど、ほんの少しでも実際の「推論」が必要になると、奇妙で直感に反する結果を出し始めます。
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日
研究者たちは論文の中でこう述べています。
これらのモデルにおける数学的推論の脆弱性を調査し、質問内の節数が増えるにつれてパフォーマンスが著しく低下することを実証しました。この低下は、現在のLLMが真の論理的推論を実行できず、代わりに訓練データで観察された推論ステップを再現しようとするためであると仮説を立てています。
この観察結果は、LLMの言語能力に起因するとしばしば挙げられる他の特性と一致しています。統計的に、「愛しています」というフレーズの後に「私も愛しています」と続く場合、LLMはそれを簡単に繰り返すことができますが、それはあなたを愛しているという意味ではありません。また、LLMは以前に経験した複雑な推論の連鎖をたどることができますが、この連鎖が表面的な逸脱によってさえ断ち切られるという事実は、LLMが実際には推論しているというよりは、訓練データで観察したパターンを再現しているだけであることを示唆しています。
共著者の一人である Mehrdad Farajtabar 氏は、X のこのスレッドでこの論文を非常にわかりやすく分析しています。
OpenAIの研究者は、ミルザデ氏らの研究を称賛しつつも、彼らの結論には異議を唱え、プロンプトのエンジニアリングを少し行えば、これらの失敗例すべてにおいて正しい結果が得られる可能性が高いと述べた。ファラジタバー氏は(研究者にありがちな、しかし賞賛に値する親しみやすさで)より優れたプロンプトは単純な逸脱には有効かもしれないが、複雑な注意散漫に対抗するには、モデルは指数関数的に多くの文脈データを必要とする可能性があると指摘した。複雑な注意散漫は、子供でも簡単に指摘できるようなものだ。
これは、法学修士課程が推論しないことを意味するのでしょうか?もしかしたらそうかもしれません。推論できないという意味でしょうか?誰にも分かりません。これらは明確に定義された概念ではなく、こうした疑問はAI研究の最先端、つまり最先端技術が日々変化する分野で生じる傾向があります。もしかしたら、法学修士課程は「推論」しているかもしれませんが、それは私たちがまだ認識していない、あるいは制御方法が分かっていない方法なのかもしれません。
これは研究における魅力的な最先端領域であると同時に、AIの売り方に関して警告となる事例でもある。AIは本当に謳い文句通りのことができるのか、もしできるとしたら、どのようにできるのか?AIが日常的なソフトウェアツールとなるにつれ、こうした問いはもはや学問的なものではなくなっている。
デヴィン・コールドウェイはシアトルを拠点とする作家兼写真家です。
彼の個人ウェブサイトは coldewey.cc です。
バイオを見る