OpenAIは、最新のAI推論モデルであるo3とo4-miniにおいて、生物兵器および化学兵器による脅威に関連する情報提供を監視するための新システムを導入したと発表した。OpenAIの安全性報告書によると、このシステムは、モデルが潜在的に有害な攻撃の実行を指示するようなアドバイスを提供することを防ぐことを目的としている。
OpenAIによると、O3とo4-miniは同社の以前のモデルに比べて大幅に機能が向上しており、悪意のある攻撃者にとって新たなリスクをもたらす可能性があるという。OpenAIの社内ベンチマークによると、o3は特に特定の種類の生物学的脅威の作成に関する質問に答える能力に優れている。この理由と他のリスクを軽減するため、OpenAIは同社が「安全性重視の推論モニター」と表現する新しい監視システムを開発しました。
OpenAIのコンテンツポリシーを推論するようにカスタムトレーニングされたこのモニターは、o3とo4-mini上で動作します。生物学的リスクと化学的リスクに関連するプロンプトを識別し、モデルにそれらのトピックに関するアドバイスの提供を拒否するよう指示するように設計されています。
基準値を確立するため、OpenAIはレッドチームのメンバーに約1,000時間かけて、o3およびo4-miniから「安全でない」バイオリスク関連の会話をフラグ付けさせました。OpenAIによると、OpenAIが安全モニターの「ブロッキングロジック」をシミュレートしたテストでは、モデルは98.7%の確率で危険なプロンプトに応答しませんでした。
OpenAIは、このテストでは、モニターによってブロックされた後に新たなプロンプトを試みる可能性のある人々を考慮していなかったことを認めており、そのため同社は、今後も人間によるモニタリングに部分的に依存していくと述べている。
OpenAIによると、O3とo4-miniは、生物兵器開発に関するOpenAIの「高リスク」閾値を超えていない。しかし、O1やGPT-4と比較すると、O3とO4-miniの初期バージョンは、生物兵器開発に関する疑問への回答においてより有用であることが証明されたとOpenAIは述べている。

OpenAIが最近更新したPreparedness Frameworkによると、同社は自社のモデルによって悪意のあるユーザーが化学的・生物学的脅威を開発しやすくなる可能性を積極的に追跡している。
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日
OpenAIは、モデルのリスクを軽減するために、自動化システムへの依存度を高めています。例えば、GPT-4oのネイティブ画像ジェネレーターが児童性的虐待素材(CSAM)を作成するのを防ぐため、OpenAIはo3およびo4-miniに導入したものと同様の推論モニターを使用していると述べています。
しかし、複数の研究者は、OpenAIが安全性を十分に重視していないのではないかと懸念を表明している。同社のレッドチームパートナーの一社であるMetrは、欺瞞行為のベンチマークテストでo3をテストする時間が比較的短かったと述べた。一方、OpenAIは今週初めにリリースされたGPT-4.1モデルの安全性レポートを公開しないことを決定した。
マックスウェル・ゼフは、TechCrunchのAI専門シニアレポーターです。以前はGizmodo、Bloomberg、MSNBCでAIの台頭やシリコンバレーの銀行危機などを取材してきました。サンフランシスコを拠点としています。取材以外の時間は、ハイキング、サイクリング、ベイエリアのグルメ巡りを楽しんでいます。
Maxwell からの連絡を確認したり連絡を受けたりする場合は、[email protected]にメールを送信するか、Signal の mzeff.88 に暗号化されたメッセージを送信してください。
バイオを見る