OpenAIは、同社のAI搭載チャットボットプラットフォームであるChatGPTを使用して、詳細かつ複雑な研究を実施できるように設計された新しいAI「エージェント」を発表している。
まさに、それは深い研究と呼ばれています。
OpenAIは日曜日に公開したブログ記事で、この新機能は「金融、科学、政策、工学などの分野で高度な知識労働に従事し、徹底的かつ正確で信頼性の高い調査を必要とする人々」向けに設計されたと述べた。同社はまた、「自動車、家電、家具など、通常は慎重な調査が必要となる購入」を行う人にとっても役立つ可能性があると付け加えた。
基本的に、ChatGPT の詳細な調査は、簡単な回答や要約だけでなく、複数の Web サイトやその他のソースからの情報を入念に検討する必要がある場合を対象としています。
OpenAIは、ChatGPT Proユーザー向けにディープリサーチ機能を本日から提供開始すると発表した。提供クエリ数は月間100件に制限されており、続いてPlusおよびTeamユーザー、そしてEnterpriseユーザー向けのサポートを開始する予定だ。(OpenAIは、約1か月後にPlusの展開を予定しており、有料ユーザーのクエリ制限はまもなく「大幅に引き上げられる」予定だと同社は述べている。)これは地域限定のリリースであり、英国、スイス、欧州経済地域のChatGPT顧客向けのリリーススケジュールについてはOpenAIは明らかにしていない。

ChatGPTディープリサーチを使用するには、コンポーザーで「ディープリサーチ」を選択し、クエリを入力します。ファイルまたはスプレッドシートを添付することもできます。(現在はWebのみのエクスペリエンスですが、モバイルアプリとデスクトップアプリの統合は今月中に開始される予定です。)ディープリサーチで質問に答えるには5分から30分ほどかかります。検索が完了すると通知が届きます。
現在、ChatGPTのディープラーニングによる出力はテキストのみです。しかし、OpenAIは埋め込み画像、データ視覚化、その他の「分析」出力を近日中に追加する予定だと述べています。また、ロードマップには「サブスクリプションベース」や内部リソースを含む「より専門的なデータソース」への接続機能も含まれているとOpenAIは付け加えています。
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日
大きな疑問は、ChatGPTの深層研究がどれほど正確であるかということです。AIは結局のところ不完全です。幻覚やその他のエラーを起こしやすく、「深層研究」のシナリオでは特に有害となる可能性があります。だからこそ、OpenAIはChatGPTの深層研究成果はすべて「明確な引用と思考の要約が含まれた完全な文書化が行われ、情報の参照と検証が容易になる」と述べています。
これらの対策がAIのミスに十分対抗できるかどうかは、まだ結論が出ていません。OpenAIのChatGPTに搭載されているAIベースのウェブ検索機能「ChatGPT Search」は、頻繁にミスを犯し、質問に対して誤った回答を返すことがあります。TechCrunchのテストでは、特定のクエリにおいて、ChatGPT SearchはGoogle Searchよりも有用な結果を提供しないことが判明しました。
OpenAIは、ディープラーニングの精度を高めるため、最近発表された「推論」AIモデル「o3」の特別バージョンを使用しています。このモデルは、「ブラウザとPythonツールの使用を必要とする現実世界のタスク」で強化学習によってトレーニングされています。強化学習とは、基本的に、試行錯誤を通じてモデルに特定の目標を達成するよう「教える」ことです。モデルが目標に近づくにつれて、仮想的な「報酬」を受け取り、理想的には、そのタスクの達成度を向上させることになります。
OpenAIは、このバージョンのo3は「ウェブ閲覧とデータ分析に最適化されている」と述べ、「インターネット上の膨大な量のテキスト、画像、PDFを推論技術を活用して検索、解釈、分析し、遭遇する情報に応じて必要に応じて方向転換する」と付け加えた。同社によると、このモデルは「ユーザーがアップロードしたファイルも閲覧可能」で、「[Python]ツールを使用してグラフを描画・反復処理し、ウェブサイトから生成したグラフと画像をレスポンスに埋め込み、ソースから特定の文章や節を引用する」ことも可能だという。

OpenAIは、ChatGPTのディープリサーチを、様々な学術分野における3,000以上の専門家レベルの問題を含む評価ツール「Humanity's Last Exam」を用いてテストしたと発表した。ディープリサーチを支えるo3モデルは26.6%の精度を達成した。これは不合格点のように思えるかもしれないが、「Humanity's Last Exam」は、モデルの進歩に遅れを取らないよう、他のベンチマークよりも厳しい設計となっている。OpenAIによると、ディープリサーチのo3モデルは、Gemini Thinking(6.2%)、Grok-2(3.8%)、そしてOpenAI独自のGPT-4o(3.3%)を大きく上回る結果となった。
それでもOpenAIは、ChatGPTのディープリサーチには限界があり、時には間違いや誤った推論が生じる可能性があると指摘しています。同社によると、ディープリサーチでは信頼できる情報と噂を区別することが困難な場合があり、不確かな点を伝えきれないことも多いとのことです。また、レポートや引用においてフォーマットエラーが発生する可能性もあるとのことです。
生成型AIが学生に与える影響を懸念する人や、オンラインで情報を探している人にとって、この種の詳細かつ引用文献が豊富な出力は、一見単純で引用文献のないチャットボットの要約よりも魅力的に聞こえるだろう。しかし、ほとんどのユーザーが実際に出力を分析・再確認するのか、それとも単にコピー&ペーストできる、よりプロフェッショナルな見た目のテキストとして扱うのかは、今後の展開を見守る必要がある。
そして、もしこれがすべて聞き覚えがあるように思われるなら、Google は実際に 2 か月も経たないうちにまったく同じ名前で同様の AI 機能を発表しました。
TechCrunchではAIに特化したニュースレターを配信しています!毎週水曜日に受信ボックスに配信されますので、こちらからご登録ください。