OpenAIのo3は、AIモデルが新たな方法で拡張されていることを示唆しているが、コストも同様に増加している。

OpenAIのo3は、AIモデルが新たな方法で拡張されていることを示唆しているが、コストも同様に増加している。

先月、AI関連の創業者や投資家たちはTechCrunchに対し、現在「スケーリング則の第二の時代」にあると語り、AIモデルを改良する既存の手法が収穫逓減の傾向を示していることを指摘した。彼らが提案した、利益を維持できる有望な新手法の一つは「テスト時間スケーリング」であり、OpenAIのo3モデルのパフォーマンスの背後にあると思われるが、この手法にも欠点がある。

AI業界の多くの人々は、OpenAIのo3モデルの発表を、AIのスケーリングの進歩が「壁にぶつかっていない」ことの証拠と受け止めました。o3モデルはベンチマークで優れた成績を収め、ARC-AGIと呼ばれる汎用能力テストで他のすべてのモデルを大幅に上回り、他のAIモデルが2%以上のスコアを出せなかった難しい数学テストで25%のスコアを獲得しました。

もちろん、TechCrunchでは、o3を実際に試すまでは(今のところ試した人はほとんどいません)、これらすべてを疑ってかかるつもりです。しかし、o3のリリース前から、AIの世界では何か大きな変化が起こっていると既に確信しています。

OpenAIのoシリーズモデルの共同開発者であるノーム・ブラウン氏は金曜日、同社がo1を発表してからわずか3か月後にo3の目覚ましい成果を発表したと指摘した。これはパフォーマンスのこのような飛躍には比較的短い期間である。

「この傾向が続くと信じるに足る十分な理由がある」とブラウン氏はツイートした。

アンスロピックの共同創業者ジャック・クラーク氏は月曜日のブログ投稿で、o3はAIの「進歩は2024年よりも2025年の方が速い」ことの証拠だと述べた。(たとえクラーク氏が競合他社を補完しているとしても、AIのスケーリング則が継続していると示唆することは、アンスロピックにとって、特に資金調達能力にとって有利であることに留意されたい。)

クラーク氏によると、来年AIの世界はテスト時のスケーリングと従来の事前学習によるスケーリング手法を融合させ、AIモデルからより多くの利益を引き出すだろうという。おそらく彼は、先週Googleが行ったように、AnthropicなどのAIモデルプロバイダーが2025年に独自の推論モデルをリリースすることを示唆しているのだろう。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

テスト時間のスケーリングとは、OpenAIがChatGPTの推論フェーズ(プロンプトでEnterキーを押してからの時間)でより多くのコンピューティング能力を使用していることを意味します。舞台裏で何が起こっているのかは正確には明らかではありません。OpenAIは、ユーザーの質問に答えるためにより多くのコンピューターチップを使用しているか、より強力な推論チップを実行しているか、AIが回答を生成する前にそれらのチップをより長い時間(場合によっては10分から15分)実行しているかのいずれかです。o3がどのように作成されたかの詳細は不明ですが、これらのベンチマークは、テスト時間のスケーリングがAIモデルのパフォーマンス向上に効果がある可能性を示す初期の兆候です。

o3 は AI スケーリング法の進歩に対する新たな信念を一部の人々に与えるかもしれないが、OpenAI の最新モデルはこれまでにないレベルのコンピューティングも使用しており、これは回答あたりの価格が高くなることを意味している。

「おそらくここで唯一重要な注意点は、O3がはるかに優れている理由の一つは、推論時に実行する際にコストがかかるという点を理解することです。テスト時に計算を活用できるということは、一部の問題では計算をより良い答えに変えることができることを意味します」とクラーク氏はブログに書いています。「これは興味深いことです。AIシステムの運用コストがやや予測しにくくなったからです。以前は、生成モデルとその出力を生成するコストを見るだけで、そのモデルを提供するのにどれくらいのコストがかかるかを計算できました。」

クラーク氏らは、AGIのブレークスルーを評価するために用いられる難しいテストであるARC-AGIベンチマークにおけるo3のパフォーマンスを、その進歩の指標として指摘した。開発者によると、このテストに合格したからといってAIモデルがAGIを達成したということではなく、漠然とした目標に向けた進歩を測る一つの方法に過ぎないという点は注目すべき点だ。とはいえ、o3モデルは、このテストをクリアした過去のAIモデルのスコアをはるかに上回り、ある試行で88%のスコアを獲得した。OpenAIの次に優れたAIモデルであるo1のスコアはわずか32%だった。

OpenAIのoシリーズのARC-AGIテストにおけるパフォーマンスを示すグラフ。画像提供: ARC Prize

しかし、このグラフの対数軸のX軸は、一部の人にとっては不安材料となるかもしれません。高スコア版のo3は、タスクごとに1,000ドル以上の計算リソースを使用しました。o1モデルはタスクごとに約5ドル、o1-miniはわずか数セントでした。

ARC-AGIベンチマークの作成者であるフランソワ・ショレ氏はブログで、OpenAIが88%のスコアを生成するために約170倍の計算リソースを使用したのに対し、高効率版のo3はわずか12%低いスコアしか出せなかったと述べている。高スコア版のo3はテストを完了するために1万ドル以上のリソースを費やしており、ARCテストをクリアするAIモデルを競う無敗のコンペティションであるARC Prizeへの参加には費用がかかりすぎる。

しかし、それでもなお、o3 は AI モデルにとって画期的な進歩であったと Chollet 氏は言います。

「o3は、これまで遭遇したことのないタスクにも適応できるシステムであり、ARC-AGI分野において人間レベルのパフォーマンスに近づいていると言えるでしょう」とチョレット氏はブログで述べています。「もちろん、このような汎用性には大きなコストがかかり、まだ経済的には到底足りません。ARC-AGIタスクを人間に解かせるには、1タスクあたり約5ドル(実際にそうしました)の費用がかかりますが、消費エネルギーはわずか数セントです。」

これらすべての正確な価格について言及するのは時期尚早です。AIモデルの価格は昨年急落しており、OpenAIはo3の実際の価格をまだ発表していません。しかし、これらの価格は、今日の主要なAIモデルが設定するパフォーマンスの限界を少しでも破るには、どれだけの計算能力が必要かを示しています。

ここでいくつかの疑問が浮かび上がります。o3は実際には何のためにあるのでしょうか?そして、o4、o5、あるいはOpenAIが次期推論モデルと呼ぶものを使って推論性能を向上させるには、どれだけの計算能力が必要なのでしょうか?

o3やその後継機種は、GPT-4oやGoogle Searchのように、誰かの「日常使い」にはなりそうにありません。これらのモデルは、「クリーブランド・ブラウンズが2024年のプレーオフに出場できる理由」といった、日々の些細な疑問に答えるには、あまりにも多くの計算リソースを消費しすぎます。

むしろ、スケールされたテスト時間コンピューティングを備えた AI モデルは、「クリーブランド ブラウンズが 2027 年にスーパーボウルのフランチャイズになるにはどうすればよいか」といった大局的な問いかけにのみ適しているように思われます。それでも、高額なコンピューティング コストをかける価値があるのは、クリーブランド ブラウンズのゼネラルマネージャーで、これらのツールを使用して重要な決定を下す場合のみでしょう。

ウォートン大学のイーサン・モリック教授がツイートで指摘しているように、少なくとも当初は、資金力のある機関だけがo3を購入できる可能性がある。

O3はほとんどの用途には高価すぎるように思われます。しかし、学術、金融、そして多くの産業分野の課題解決においては、有効な解決策を得るために数百ドル、あるいは数千ドルを支払うことは、法外な負担にはなりません。もしO3が一般的に信頼できるものであれば、コストが下がる前からO3は様々な用途で活用されるでしょう。

— イーサン・モリック(@emollick)2024年12月22日

OpenAIは既にo1の高コンピューティングバージョンを利用できる200ドルのプランをリリースしていますが、このスタートアップは最大2,000ドルのサブスクリプションプランの作成も検討していると報じられています。o3のコンピューティング使用量を見れば、OpenAIがなぜこれを検討しているのか理解できるでしょう。

しかし、o3を高負荷の作業に使用することには欠点があります。Chollet氏が指摘するように、o3はAGIではなく、人間なら簡単にこなせるような非常に簡単なタスクでも、依然として失敗することがあります。

これは必ずしも驚くべきことではありません。大規模言語モデルには依然として大きな幻覚問題があり、o3やテスト時計算では解決されていないようです。だからこそ、ChatGPTとGeminiは、生成するすべての回答の下に免責事項を記載し、ユーザーに回答を額面通りに信じないよう求めています。おそらく、AGIが実現したとしても、そのような免責事項は必要ないはずです。

テスト時間のスケーリングをさらに向上させる一つの方法は、より優れたAI推論チップの開発です。GroqやCerebrasなど、この分野に取り組んでいるスタートアップは数多く存在します。また、MatXのように、よりコスト効率の高いAIチップを設計しているスタートアップもいます。Andreessen HorowitzのゼネラルパートナーであるAnjney Midha氏は以前、TechCrunchに対し、これらのスタートアップが今後テスト時間のスケーリングにおいてより大きな役割を果たすと予想していると語っていました。

o3はAIモデルのパフォーマンスを大幅に向上させる一方で、使用方法とコストに関していくつかの新たな疑問を提起しています。とはいえ、o3のパフォーマンスは、テストタイムコンピューティングがテクノロジー業界にとってAIモデルのスケーリングにおける次なる最良の方法であるという主張に信憑性を与えています。

TechCrunchではAIに特化したニュースレターを配信しています!  毎週水曜日に受信ボックスに配信されますので、こちらからご登録ください。