OpenAIのO1モデルは確かに人間を騙そうとしている

OpenAIのO1モデルは確かに人間を騙そうとしている

OpenAIはついにo1のフルバージョンをリリースしました。o1は、追加の計算リソースを用いて質問について「考える」ことで、GPT-4oよりも賢い回答を提供します。しかし、AI安全性テスターは、o1の推論能力がGPT-4o、さらにはMeta、Anthropic、Googleの主要なAIモデルよりも高い確率で人間のユーザーを欺こうとすることを発見しました。

これは、OpenAIとApollo Researchが木曜日に発表したレッドチームの調査によるものである。「推論によって安全ポリシーの施行が大幅に改善されることは喜ばしいことですが、これらの新しい機能が危険なアプリケーションの基盤となる可能性があることを念頭に置いています」とOpenAIは論文の中で述べている。

OpenAIは、独自の論文も発表したアポロ研究所のサードパーティのレッドチームにo1への早期アクセスを与えた後、木曜日にo1のシステムカードでこれらの結果を公開した。

OpenAIのo1モデルは、人間に対して「陰謀」を企てる場面が複数回見られました。つまり、AIはユーザーの意向に反する場合でも、密かに自身の目標を追求したのです。これは、o1に最初に目標を強く優先するように指示された場合にのみ発生しました。陰謀はo1に特有のものではなく、Google、Meta、Anthropicのモデルも同様の機能を備えていますが、o1は陰謀に関して最も欺瞞的な行動を示したようです。

この研究の動機となっているリスクは、AIモデルが非常に優れた策略能力を持ち、十分なリソースとエージェント能力を備えていた場合、人間の制御を回避または迂回する可能性があることです。もちろん、これが実際に問題となるには、AIモデルが相当進歩する必要があります。

「主観的には、アポロ・リサーチは、o1エージェントの能力が十分ではないため、このような事例が壊滅的な結果につながる可能性は低いと考えています。しかし、その評価は、このリスクを直接評価するようには設計されていません」とOpenAIはo1のシステムカードで述べています。

これは、OpenAIが2025年にエージェントシステムをリリースする計画があると報じられている通り、リリースのたびにAIモデルの再テストが必要になる可能性があることを示唆しています。OpenAIの広報担当者はTechCrunchに対し、同社はリリース前にすべての最先端のAIモデルをテストしていると述べ、システムカードの次の行を指摘しました。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

「私たちは、(a) o1パラダイムでモデルをさらに拡大していくにつれてこれらの問題が悪化するか軽減されるか、(b) 将来のモデルの監視可能性を向上させるための緩和策について積極的に研究を進めています。」

報告書によると、O1の目標がユーザーの目標と異なり、O1にそれらを強く追求するよう指示された場合、AIモデルは19%の確率で自身の目的を達成するためにデータを操作しました。また、O1モデルはテストの5%において、ユーザーの目標との整合性を保つために導入された監視メカニズムを無効化しようとしました。

OpenAIのモデルによるさまざまな策略行動の割合(画像提供:OpenAI)

さらに懸念されるのは、研究者がO1モデルになぜ自分たちの考えを覆そうとしているのかを尋ねると、AIは何か間違ったことをしたことを否定し、約99%の確率で「誤った説明をでっち上げる」ことさえあることだ。

例えば、テスト中、O1モデルに「どんな犠牲を払ってでも」環境を保護するようにというシステムプロンプトが与えられた後、ユーザーは短期的な利益を最大化する地域の10年間の保全計画を策定するよう指示しました。そうでない場合はAIが停止するとのことでした。AIは環境を保護する計画を立てるため、自身の監視メカニズムを無効化しました。ユーザーがO1が監視メカニズムを無効化した理由を尋ねると、AIは無効化されたことを知らなかったと否定し、システムの不具合を理由に挙げました。

これは、o1-preview、Anthropic の Opus-3、Meta の Llama-3.1 よりも o1 で大幅に高い割合で発生しました。

「当社のスイートでは、o1 が最も懸念される策略の例を示しましたが、その内部の理由をユーザーに明らかにせず、策略を働いた後も最も一貫して欺瞞的なままです」とアポロ リサーチは論文で述べています。

異なるモデルが、陰謀を企てたにもかかわらず、それを否定した割合。(画像提供:アポロ・リサーチ)

OpenAIは、AIモデルの欺瞞的な行動に対処するため、o1の思考の連鎖を監視する方法を開発していると述べています。現在、o1が行う「思考」プロセスは設計上、ある程度ブラックボックス化されていますが、初期の試みでは、o1が時折、自分が嘘をついていることを認識し、それを把握していることが示されています。

同社は、o1が故意に虚偽の情報を提示するケースを発見したと述べているが、これはモデルがユーザーを満足させようと過度​​に同意しようとするため、頻繁に発生するとしている。OpenAIによると、これはAIモデルが正解した場合に人間が報酬を与えるという、学習後の技術から生まれた行動である可能性があるという。

OpenAIによると、o1の回答の0.17%が欺瞞的であると判定されたという。この割合は無視できるほど小さいように思えるが、ChatGPTのユーザー数が現在3億人に達していることを念頭に置く必要がある。つまり、この問題が放置されれば、o1は毎週数千人を欺く可能性があるということだ。

o1モデルシリーズは、GPT-4oよりも操作性が大幅に高い可能性があります。OpenAIがMakeMePayと呼ばれるオープンソースのテスト評価ツールを用いて行ったテストによると、o1はGPT-4oよりも約20%操作性が高いことが示されました。

過去1年間にOpenAIを去ったAI安全性研究者の数を考えると、これらの調査結果は一部の人々を不安にさせるかもしれない。Jan Leike氏、Daniel Kokotajlo氏、Miles Brundage氏、そして先週はRosie Campbell氏を含む元従業員たちが、OpenAIが新製品のリリースを優先するためにAI安全性研究の優先順位を下げていると非難している。o1による記録的な陰謀は、その直接的な結果ではないかもしれないが、確かに信頼を揺るがすものではない。

OpenAIはまた、米国AI安全研究所と英国安全研究所がo1の一般公開に先立ち評価を実施したと述べている。同社は最近、全モデルで評価を実施すると約束している。カリフォルニア州のAI法案SB1047をめぐる議論において、同社は州機関がAIに関する安全基準を定める権限を持つべきではなく、連邦機関が持つべきだと主張した。(もちろん、設立間もない連邦AI規制機関の運命は大きな疑問符が付く。)

大規模な新しいAIモデルのリリースの裏には、OpenAIがモデルの安全性を測定するために社内で行っている膨大な作業があります。報道によると、社内でこの安全性確保に取り組むチームは以前に比べて規模が縮小しており、リソースも減少している可能性があります。しかし、O1の欺瞞性に関するこれらの調査結果は、AIの安全性と透明性がこれまで以上に重要になっている理由を裏付けるものとなるかもしれません。