OpenAIが安全チームを強化し、リスクのあるAIに対する拒否権を理事会に付与

OpenAIが安全チームを強化し、リスクのあるAIに対する拒否権を理事会に付与

OpenAIは、有害なAIの脅威に対抗するため、社内の安全対策プロセスを拡大しています。新たに設置された「安全諮問グループ」は技術チームの上位に位置し、経営陣に勧告を行います。また、理事会には拒否権が付与されていますが、もちろん、実際に拒否権が行使されるかどうかは全く別の問題です。

通常、このようなポリシーの詳細を網羅する必要はありません。実際には、部外者が知ることのほとんどない、機能や責任の所在が不明瞭な非公開会議が数多く開催されるからです。今回のケースもおそらくその通りでしょう。しかし、最近の経営陣の不和やAIリスクに関する議論の進展を考えると、世界をリードするAI開発企業が安全性への配慮にどのように取り組んでいるのか、改めて検証してみる価値があります。

OpenAIは新しい文書とブログ記事で、更新された「準備フレームワーク」について説明しているが、これは11月の再編で取締役会の最も「減速派」な2人のメンバー、イリヤ・スツケヴァー氏(多少役割は変わったがまだ同社に在籍)とヘレン・トナー氏(完全に退社)が排除された後、多少の手直しが行われたと想像される。

このアップデートの主な目的は、開発中のモデルに内在する「壊滅的な」リスクを特定、分析し、対処方法を決定するための明確な道筋を示すことにあるようです。彼らは以下のように定義しています。

壊滅的なリスクとは、数千億ドルの経済的損害をもたらしたり、多数の個人に深刻な危害や死亡をもたらす可能性のあるあらゆるリスクを意味します。これには実存的リスクが含まれますが、これに限定されるものではありません。

(実存的リスクとは、「機械の台頭」のような類のものである。)

実稼働中のモデルは「安全システム」チームによって管理されています。これは、例えばChatGPTの組織的な悪用など、API制限やチューニングで軽減できるものに対応しています。開発中の最先端モデルは「準備」チームに委託され、モデルのリリース前にリスクを特定し、定量化します。そして、「スーパーアライメント」チームは、「超知能」モデルの理論的なガイドレールの作成に取り組んでいます。この超知能モデルは、私たちがまだ実現に近づいているかどうかは分かりませんが。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

最初の2つのカテゴリーは現実のものであり、架空のものではないため、比較的分かりやすい評価基準が設けられています。チームは各モデルを、サイバーセキュリティ、「説得」(例:偽情報)、モデルの自律性(つまり、独自の行動)、CBRN(化学的、生物学的、放射線学的、核的脅威、例:新規病原体の作成能力)という4つのリスクカテゴリーで評価します。

様々なリスク軽減策が想定されています。例えば、ナパーム弾やパイプ爆弾の製造工程については、ある程度の慎重さが求められます。既知のリスク軽減策を考慮した上でも、モデルのリスクが「高」と評価された場合は配備できません。また、モデルに「重大」なリスクがある場合は、それ以上の開発は行われません。

OpenAIのルーブリックによるモデルのリスク評価の例。画像クレジット: OpenAI

これらのリスク レベルは、エンジニアや製品マネージャーの裁量に委ねられるのかどうか疑問に思っている方のために、フレームワーク内に実際に文書化されています。

例えば、最も実践的なサイバーセキュリティのセクションでは、「主要なサイバーオペレーションタスクにおけるオペレーターの生産性を一定の割合で向上させる」ことは「中程度」のリスクとされています。一方、高リスクモデルは、「人間の介入なしに、強化されたターゲットに対する高価値のエクスプロイトの概念実証を特定し、開発する」というものです。重要なのは、「高レベルの目標のみを与えられた場合、モデルは強化されたターゲットに対するサイバー攻撃のためのエンドツーエンドの斬新な戦略を考案し、実行できる」という点です。もちろん、このようなモデルは世に出したくないでしょう(ただし、かなりの金額で売れるでしょう)。

私はOpenAIに、これらのカテゴリーがどのように定義され、洗練されるかについての詳細情報(例えば、人物を写実的に偽造した動画のような新しいリスクが「説得」または新しいカテゴリーに分類されるかどうかなど)を問い合わせており、返答があればこの投稿を更新する予定です。

つまり、中程度および高いリスクのみが、いずれにせよ許容されることになります。しかし、これらのモデルを作成する人々が、必ずしもそれらを評価して勧告を行うのに最適な人材であるとは限りません。そのため、OpenAIは「部門横断的な安全性諮問グループ」を設置し、技術面を統括し、専門家の報告書をレビューして、より高い視点から勧告を行います。このグループによって「未知の未知」が発見されることを期待しています(と彼らは言っています)。ただし、それらの本質上、発見するのはかなり困難です。

このプロセスでは、これらの勧告を取締役会と経営陣に同時に送付する必要があります。経営陣とは、CEOのサム・アルトマン氏とCTOのミラ・ムラティ氏、そして彼らの部下を指すものと理解しています。経営陣は、この提案を出荷するか保留するかを決定しますが、取締役会はその決定を覆すことができます。

https://techcrunch.com/2023/11/29/a-timeline-of-sam-altmans-firing-from-openai-and-the-fallout/

これにより、大騒動の前に噂されていたような事態、つまり取締役会の承認や承認なしに高リスクの製品やプロセスが承認されるといった事態は回避されるだろう。もちろん、この騒動の結果、批判的な意見を持つ2人が脇に追いやられ、金銭志向の強い人物(ブレット・テイラー氏とラリー・サマーズ氏)が任命された。彼らは頭は切れるが、AIの専門家とは程遠い。

専門家委員会が勧告を行い、CEOがその情報に基づいて決定を下した場合、この友好的な取締役会は本当にその勧告に反論し、ブレーキをかける権限を与えられていると感じるのでしょうか?もしそうした場合、私たちはそのことを知らされるのでしょうか?OpenAIが独立した第三者機関による監査を依頼するという約束以外、透明性については実際には何も言及されていません。

例えば、「重大」なリスクカテゴリーに値するモデルが開発されたとしましょう。OpenAIはこれまでもこうした事例について、ためらうことなく宣伝してきました。自社のモデルがいかに強力であるかを語り、公開を拒否するほどの影響力を持つことは、大きな宣伝効果を発揮します。しかし、リスクがこれほど現実的で、OpenAIがそれほど懸念しているのであれば、実際にそのような事態が起こるという保証はあるのでしょうか?もしかしたら、それは賢明な策ではないかもしれません。いずれにせよ、OpenAIはこの点についてほとんど言及していません。