OpenAIが自らファクトチェックできるモデル「o1」を発表

OpenAIが自らファクトチェックできるモデル「o1」を発表

ChatGPT の開発元である OpenAI が、次期主要製品リリースを発表しました。コード名 Strawberry、正式名称 OpenAI o1 と呼ばれる生成 AI モデルです。

より正確に言うと、o1は実際にはモデルのファミリーです。木曜日にChatGPTとOpenAIのAPI経由で2つのモデルが利用可能になります。o1-previewとo1-miniは、コード生成を目的とした小型で効率的なモデルです。

ChatGPTクライアントでo1を表示するには、ChatGPT PlusまたはTeamにご加入いただく必要があります。エンタープライズおよび教育機関のユーザーは来週初めにアクセスできるようになります。

o1チャットボットのエクスペリエンスは、現時点ではかなり簡素なものであることに注意してください。o1の前身であるGPT-4oとは異なり、o1はまだWebの閲覧やファイルの分析ができません。モデルには画像分析機能がありますが、追加テストのため無効化されています。また、o1にはレート制限があり、現在、o1-previewでは週30件、o1-miniでは週50件の制限があります。

もう一つの欠点は、o1 のコストが高いことです。非常に高価です。API では、o1-preview は入力トークン100万個あたり15ドル、出力トークン100万個あたり60ドルです。これは、GPT-4o と比較して、入力で6倍、出力で6倍のコストです。(「トークン」とは生データのビットで、100万個は約75万語に相当します。)

OpenAIは、ChatGPTの無料ユーザー全員にo1-miniへのアクセスを提供する予定だと発表していますが、リリース日はまだ決まっていません。同社にはこの計画の実現を期待しています。

推論の連鎖

OpenAI o1は、質問のあらゆる部分をより時間をかけて検討することで効果的に自己事実確認を行うことができるため、生成AIモデルが通常陥りがちな推論の落とし穴を回避しています。OpenAIによると、o1が他の生成AIモデルと質的に異なる「感触」を持つのは、質問に応答する前に「考える」能力があるからです。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

o1は「考える」ための追加の時間を与えられると、タスクを全体的に推論することができます。つまり、事前に計画を立て、モデルが答えに到達するのに役立つ一連のアクションを長期間にわたって実行します。そのため、o1は、弁護士の受信トレイにある機密メールの検出や製品マーケティング戦略のブレインストーミングなど、複数のサブタスクの結果を統合する必要があるタスクに適しています。

OpenAIの研究科学者であるノアム・ブラウン氏は、木曜日にXに投稿した一連の記事で、「o1は強化学習によって訓練されている」と述べた。ブラウン氏によると、これはo1が正解した場合に報酬を与え、不正解した場合にはペナルティを与えることで、システムに「プライベートな思考連鎖を通して、応答する前に『考える』こと」を学習させるという。

ブラウン氏は、OpenAIが新たな最適化アルゴリズムと、「推論データ」と推論タスクに特化した科学文献を含む訓練データセットを活用したことを示唆した。「[o1]が長く考えれば考えるほど、より良い結果が得られる」と彼は述べた。

オープンAI o1
画像クレジット: OpenAI

TechCrunchはデビュー前にo1をテストする機会を得られませんでしたが、できるだけ早く利用できるようになる予定です。しかし、実際にテストする機会を得た人物(トムソン・ロイターのバイスプレジデント、パブロ・アレドンド氏)によると o1は、法廷弁論書の分析やLSAT論理ゲームの問題の解法特定といった分野で、OpenAIの以前のモデル(例えばGPT-4o)よりも優れているとのことです。

「より実質的で多面的な分析に取り組むようになったと実感しています」とアレドンド氏はTechCrunchに語った。「自動化テストでは、幅広い単純なタスクでも改善が見られました。」

OpenAIによると、高校生の数学コンテストである国際数学オリンピック(IMO)の予選試験で、o1は83%の問題を正答したのに対し、GPT-4oはわずか13%しか解けなかったという。(Google DeepMindの最近のAIが実際のIMOコンテストに相当するもので銀メダルを獲得したことを考えると、これはそれほど印象的ではない。)OpenAIはまた、o1がCodeforcesと呼ばれるオンラインプログラミングチャレンジラウンドで参加者の89パーセンタイルに到達したと述べている。これはDeepMindの主力システムであるAlphaCode 2よりも優れていると言える。

オープンAI o1
画像クレジット: OpenAI

OpenAIによると、o1は一般的にデータ分析、科学、コーディングの問題で優れたパフォーマンスを発揮するはずだ。(o1を自社のAIコーディングアシスタント「GitHub Copilot」でテストしたGitHubは、このモデルがアルゴリズムとアプリコードの最適化に長けていると報告している。)そして、少なくともOpenAIのベンチマークによれば、o1は多言語スキル、特にアラビア語や韓国語などの言語においてGPT-4oよりも優れている。

ウォートン校経営学部のイーサン・モリック教授は、O1を1ヶ月間使用した感想を個人ブログに投稿しました。難しいクロスワードパズルでは、O1は(新しいヒントを幻覚で見たにもかかわらず)全問正解するなど、なかなかの成績を収めたとのことです。

OpenAI o1は完璧ではない

さて、欠点はあります。

OpenAI o1は、クエリによっては他のモデルよりも遅くなることがあります。Arredondo氏によると、o1は一部の質問に回答するのに10秒以上かかることがあります。o1は現在実行中のサブタスクのラベルを表示することで、その進行状況を示します。

生成AIモデルの予測不可能な性質を考えると、o1には他にも欠陥や限界がある可能性が高い。ブラウン氏は、o1が例えば三目並べのゲームで時折つまずくことを認めている。また、OpenAIは技術論文の中で、o1はGPT-4oより幻覚(つまり、自信たっぷりに何かをでっち上げる)傾向があり、質問に対する答えが見つからないことを認める頻度が低いという、テスターからの逸話的なフィードバックを得ていると述べた。

「[o1では]エラーや幻覚はまだ起こります」とモリック氏は投稿に記している。「まだ完璧ではありません。」

さまざまな問題については、時間が経てば、そして私たち自身で o1 を徹底的に調べる機会が得られれば、間違いなくもっと詳しくわかるようになるでしょう。

激しい競争

モデルの事実性を向上させるためにこうしたタイプの推論方法を研究している AI ベンダーは OpenAI だけではないことを強調しておかないといけません。

Google DeepMind の研究者は最近、モデルに本質的により多くの計算時間と、リクエストが発生したときにそれを満たすためのガイダンスを与えることで、追加の調整なしでモデルのパフォーマンスを大幅に向上できることを示した研究を発表しました。

競争の激しさを示すように、OpenAIは、競争上の優位性もあって、ChatGPTでo1の生の「思考の連鎖」を表示しないことにしたと述べた。(代わりに、同社は連鎖の「モデル生成要約」を表示することを選択した。)

OpenAIはo1で先陣を切るかもしれない。しかし、ライバル企業もすぐに同様のモデルで追随すると仮定すると、同社にとって真の試練はo1を広く、そしてより安価に利用できるようにすることだろう。

そこから、OpenAIがo1のアップグレード版をどれだけ早く提供できるかが注目されます。同社は、数時間、数日、あるいは数週間も推論を続けるo1モデルの実験を行い、推論能力をさらに向上させることを目指しているとのことです。