ハンター・ライトマンは2022年にOpenAIの研究員として入社して間もなく、同僚たちが史上最速で成長した製品の一つであるChatGPTを立ち上げるのを見守った。その間、ライトマンはOpenAIのモデルに高校の数学コンテストの解答を教えるチームで静かに働いていた。
現在、MathGen として知られるこのチームは、AI 推論モデル (人間のようにコンピューター上でタスクを実行できる AI エージェントのコア技術) を作成するという、OpenAI の業界をリードする取り組みにおいて重要な役割を果たしていると考えられています。
「当時はあまり得意ではなかった数学的推論をモデルでより良くできるようにしようとしていました」とライトマン氏は、MathGenの初期の仕事についてTechCrunchに語った。
OpenAIのモデルは今のところ完璧には程遠い。同社の最新AIシステムは依然として幻覚を起こし、エージェントは複雑なタスクに苦労している。
しかし、同社の最先端モデルは数学的推論能力において飛躍的な進歩を遂げています。OpenAIのモデルの1つは最近、世界屈指の優秀な高校生が競う数学コンテストである国際数学オリンピック(IMO)で金メダルを獲得しました。OpenAIは、これらの推論能力が他の科目にも応用され、最終的には同社が長年開発を夢見てきた汎用エージェントの実現につながると考えています。
ChatGPT は幸運な偶然でした。控えめな研究プレビューが消費者向けビジネスとして急速に広まりましたが、OpenAI のエージェントは社内での長年にわたる計画的な取り組みの成果です。
「最終的には、必要なことをコンピューターに尋ねるだけで、コンピューターがこれらのタスクをすべて実行してくれるようになるでしょう」と、OpenAIのCEO、サム・アルトマン氏は2023年に同社が初めて開催した開発者会議で述べた。「これらの機能は、AI分野ではエージェントとしてよく話題になります。そのメリットは計り知れないものになるでしょう。」
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日

エージェントがアルトマン氏のビジョンを実現するかどうかはまだ分からないが、OpenAIは2024年秋に初のAI推論モデル「o1」をリリースし、世界に衝撃を与えた。それから1年も経たないうちに、この画期的な成果の背後にいる21人の基礎研究者は、シリコンバレーで最も引く手あまたの人材となっている。
マーク・ザッカーバーグは、O1の研究者5名をMetaの新たなスーパーインテリジェンス専門部門に採用し、1億ドルを超える報酬を提示した。その一人、シェンジア・チャオ氏は最近、Metaスーパーインテリジェンスラボの主任科学者に任命された。
強化学習のルネッサンス
OpenAIの推論モデルとエージェントの台頭は、強化学習(RL)と呼ばれる機械学習トレーニング手法と結びついています。RLは、シミュレーション環境におけるAIモデルの選択が正しかったかどうかに関するフィードバックを提供します。
強化学習は数十年にわたって利用されてきました。例えば、OpenAIが2015年に設立されてから約1年後の2016年、Google DeepMindが強化学習を用いて開発したAIシステム「AlphaGo」が、囲碁の世界チャンピオンを破り、世界的な注目を集めました。

ちょうどその頃、OpenAIの最初の従業員の一人であるアンドレイ・カルパシーは、強化学習(RL)を活用してコンピューターを操作できるAIエージェントを開発する方法を模索し始めました。しかし、OpenAIが必要なモデルとトレーニング手法を開発するには何年もかかりました。
2018年までに、OpenAIはGPTシリーズ初の大規模言語モデルを開発しました。このモデルは、膨大なインターネットデータと大規模なGPUクラスターで事前学習されています。GPTモデルはテキスト処理に優れており、最終的にはChatGPTへとつながりましたが、基本的な数学処理には苦労しました。
OpenAIが画期的な成果を達成するまでには2023年までかかりました。これは当初「Q*」、後に「Strawberry」と名付けられ、LLM、強化学習、そして「テスト時間計算」と呼ばれる手法を組み合わせることで実現しました。後者は、モデルに余分な時間と計算能力を与え、問題を計画し、その手順を検証してから答えを出すというものです。
これにより、OpenAI は「思考の連鎖」(CoT) と呼ばれる新しいアプローチを導入することができ、モデルがこれまで見たことのない数学の問題に対する AI のパフォーマンスが向上しました。
「モデルが推論を始めるのが分かりました」とOpenAIの研究者であるアハメド・エル=キシュキー氏は語った。「間違いに気づき、後戻りしたり、イライラしたりしていました。まるで人間の思考を読んでいるかのようでした。」
これらの技術は個別には目新しいものではありませんでしたが、OpenAIは独自にこれらを組み合わせてStrawberryを開発し、それがo1の開発に直接つながりました。OpenAIは、AI推論モデルの計画力と事実確認能力がAIエージェントの強化に役立つ可能性があることをすぐに認識しました。
「私は数年間頭を悩ませてきた問題を解決したのです」とライトマン氏は語った。「私の研究人生で最も興奮した瞬間の一つでした。」
スケーリングの推論
OpenAI は、AI 推論モデルによって、AI モデルを改善できる 2 つの新しい軸があると判断しました。それは、AI モデルのトレーニング後の段階でより多くの計算能力を使用すること、そして質問に答える際に AI モデルにより多くの時間と処理能力を与えることです。
「OpenAIは企業として、現状だけでなく、今後どのように拡大していくかについてもよく考えています」とライトマン氏は語った。
2023年のストロベリー計画のブレークスルー直後、OpenAIはこの新しいパラダイムのさらなる発展を目指し、OpenAI研究者のダニエル・セルサム氏が率いる「エージェント」チームを立ち上げたと、2人の情報筋がTechCrunchに語った。チームは「エージェント」と呼ばれていたものの、OpenAIは当初、今日私たちが考えるような推論モデルとエージェントを区別していませんでした。同社は、AIシステムが複雑なタスクを実行できるようにすることだけを望んでいました。
最終的に、セルサムのエージェント チームの仕事は、OpenAI の共同設立者であるイリヤ・スツケバー氏、最高研究責任者のマーク・チェン氏、主任科学者のヤクブ・パチョッキ氏などのリーダーが率いる o1 推論モデルを開発するより大規模なプロジェクトの一部となりました。

OpenAIはo1の開発に貴重なリソース、主に人材とGPUを投入する必要がありました。OpenAIの歴史を通して、研究者はリソースを得るために企業のリーダーと交渉する必要がありました。画期的な成果を示すことが、リソースを確保する確実な方法でした。
「OpenAIの核となる要素の一つは、研究のすべてがボトムアップで行われることです」とライトマン氏は述べた。「[o1の]証拠を示したとき、OpenAIは『これは理にかなっている。推進しよう』としてくれたんです」
元従業員の中には、このスタートアップのAGI開発という使命こそが、AI推論モデルにおけるブレークスルーを達成するための鍵だったと語る者もいる。製品ではなく、可能な限り最も賢いAIモデルの開発に注力することで、OpenAIは他の取り組みよりもo1を優先することができた。アイデアへのこのような大規模な投資は、競合するAIラボでは必ずしも可能ではなかったのだ。
新しい学習手法を試すという決断は先見の明があったことが証明されました。2024年後半までに、いくつかの主要なAI研究機関は、従来の事前学習によるスケーリングで作成されたモデルの収益が減少する傾向にあることを実感し始めました。今日、AI分野の勢いの多くは推論モデルの進歩によってもたらされています。
AIが「推論する」とはどういう意味でしょうか?
AI研究の目標は、多くの点で、コンピューターで人間の知能を再現することです。o1のリリース以来、ChatGPTのUXは「思考」や「推論」といった、より人間らしい機能で満たされています。
OpenAIのモデルが本当に推論機能を備えているかとの質問に対し、エル・キシュキー氏は、この概念をコンピューターサイエンスの観点から考えていると答えて、答えを避けた。
「私たちはモデルに、答えを得るために計算を効率的に使う方法を教えています。ですから、そのように定義すれば、それは確かに推論と言えるでしょう」とエル=キシュキー氏は述べた。
ライトマンは、モデルの結果に焦点を当てるアプローチを採用しており、手段や人間の脳との関係にはそれほど重点を置いていません。

「モデルが難しいことを実行している場合、そのために必要な推論の近似値を実行していることになります」とライトマン氏は述べた。「推論の痕跡のように見えるので、それを推論と呼ぶことはできますが、これはすべて、多くの人にとって非常に強力で有用なAIツールを開発するための代替手段に過ぎません。」
OpenAIの研究者たちは、推論の命名法や定義に賛否両論があるかもしれないと指摘し(もちろん批判者も現れている)、しかし、それはモデルの能力ほど重要ではないと主張している。他のAI研究者も概ね同意している。
非営利団体AI2のAI研究者、ネイサン・ランバート氏は、ブログ記事の中でAIの推論モードを飛行機に例えています。ランバート氏によると、どちらも自然界からヒントを得た人工システムであり、それぞれ人間の推論と鳥の飛行に似ていますが、全く異なるメカニズムで動作します。だからといって、AIの有用性や、同様の成果を達成する能力が劣るわけではありません。
OpenAI、Anthropic、Google DeepMindのAI研究者グループは、最近のポジションペーパーにおいて、AIの推論モデルは現時点では十分に理解されておらず、さらなる研究が必要であるという点で一致しました。AI内部で何が起こっているかを自信を持って断言するには時期尚早かもしれません。
次のフロンティア:主観的なタスクのためのAIエージェント
現在市場に出回っているAIエージェントは、コーディングのような明確に定義され検証可能な領域で最も効果を発揮します。OpenAIのCodexエージェントは、ソフトウェアエンジニアが単純なコーディング作業を負担するのを支援することを目的としています。一方、Anthropicのモデルは、CursorやClaude CodeといったAIコーディングツールで特に人気が高まっています。これらは、人々が喜んでお金を払って購入する最初のAIエージェントの一部です。
しかし、OpenAIのChatGPTエージェントやPerplexityのCometのような汎用AIエージェントは、人々が自動化したい複雑で主観的なタスクの多くで苦戦しています。オンラインショッピングや長時間駐車スペースの検索にこれらのツールを使用しようとしたところ、エージェントが期待以上に時間がかかり、些細なミスを犯してしまうことに気づきました。
もちろん、エージェントは初期段階のシステムであり、今後確実に改善されるでしょう。しかし、研究者たちはまず、より主観的なタスクを完了するために、基盤となるモデルをより良く訓練する方法を見つけ出す必要があります。

「機械学習における多くの問題と同様に、これはデータの問題です」と、主観的なタスクにおけるエージェントの限界について尋ねられたライトマン氏は述べた。「私が今、本当に熱心に取り組んでいる研究の一つは、検証が困難なタスクでどのように訓練するかを解明することです。私たちは、こうしたことを実現する方法についていくつかの手がかりを持っています。」
IMOモデルとo1の開発に携わったOpenAIの研究者、ノアム・ブラウン氏は、TechCrunchに対し、OpenAIは新たな汎用RL技術を有しており、これによりAIモデルに容易に検証できないスキルを学習させることができると語った。同社がIMOで金メダルを獲得したモデルは、この技術によって構築されたとブラウン氏は述べた。
OpenAIのIMOモデルは、複数のエージェントを生成し、同時に複数のアイデアを探索し、最適な答えを選択する新しいAIシステムです。このようなタイプのAIモデルは人気が高まっており、GoogleとxAIは最近、この技術を用いた最先端のモデルをリリースしました。
「これらのモデルは数学の能力をさらに高めるでしょうし、他の推論分野でも同様に能力を高めるでしょう」とブラウン氏は述べた。「進歩は信じられないほど速い。この進歩が鈍化すると考える理由は見当たりません。」
これらの技術はOpenAIのモデルのパフォーマンス向上に役立ち、同社の次期GPT-5モデルに反映される可能性があります。OpenAIはGPT-5のリリースによって競合他社に対する優位性を確立し、開発者や消費者向けのエージェントを強化するための最高のAIモデルを提供することを目指しています。
しかし、同社は製品の使いやすさも追求しています。エル=キシュキー氏によると、OpenAIはユーザーが特定の設定を選択することなく、直感的に何を望んでいるのかを理解するAIエージェントの開発を目指しています。また、特定のツールをいつ呼び出すべきか、そしてどれくらいの時間をかけて推論すべきかを理解できるAIシステムの構築を目指しているとのことです。
これらのアイデアは、ChatGPTの究極版を描き出しています。インターネット上であらゆることをユーザーに代わって実行し、ユーザーの希望を理解してくれるエージェントです。これは現在のChatGPTとは大きく異なる製品ですが、同社の研究はまさにこの方向に向かっています。
OpenAIは数年前、AI業界を間違いなくリードしていましたが、今や強力なライバルが次々と現れています。もはや問題は、OpenAIがエージェントの未来を実現できるかどうかだけでなく、Google、Anthropic、xAI、Metaに先を越される前に実現できるかどうかです。