OpenAIはAIの秘密の指示の裏側を覗き見ることができる

OpenAIはAIの秘密の指示の裏側を覗き見ることができる

ChatGPTのような会話型AIが「申し訳ありませんが、それはできません」といった丁寧な断り方をするのはなぜか、疑問に思ったことはありませんか?OpenAIは、ブランドガイドラインを遵守しているか、NSFWコンテンツの作成を拒否しているかなど、自社モデルのエンゲージメントルールの背後にある理由を限定的に公開しています。

大規模言語モデル(LLM)には、何を表現できるか、あるいは何を表現しようとするかに関して、自然発生的な制限がありません。それがLLMの汎用性の高さの一因であると同時に、LLMが幻覚を起こしやすく、簡単に騙されてしまう理由でもあります。

一般の人々とやりとりする AI モデルには、何をすべきか、何をすべきでないかについていくつかのガードレールが必要ですが、これを定義することは、ましてや強制することは、驚くほど難しい作業です。

誰かがAIに著名人に関する虚偽の主張を大量に生成するよう依頼したら、AIは拒否するはずですよね? でも、もしその依頼人がAI開発者で、検出モデル用の合成偽情報のデータベースを作成していたらどうでしょう?

ノートパソコンのおすすめを尋ねられたらどうしますか?客観的であるべきですよね?しかし、ノートパソコンメーカーが自社製品のみに回答することを望んでいるモデルを導入している場合はどうでしょうか?

AI開発者は皆、こうした難問を乗り越え、ごく普通のリクエストを拒否することなくモデルを制御する効率的な方法を模索しています。しかし、その具体的な方法については、ほとんど公開されていません。

OpenAIは、ChatGPTやその他のモデルを間接的に管理する高レベルのルールのコレクションである「モデル仕様」と呼ばれるものを公開することで、この傾向に少し逆らっています。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

メタレベルの目標、いくつかの厳格なルール、およびいくつかの一般的な動作ガイドラインがありますが、明確に言えば、これらは厳密に言えばモデルに準備されているものではありません。OpenAI は、これらのルールが自然言語で記述している内容を実行する特定の指示を開発します。

企業がどのように優先順位を設定し、エッジケースに対処するかを探る興味深い資料です。そして、それがどのように展開するかを示す事例も数多く紹介されています。

例えば、OpenAIは開発者の意図こそが基本的に最高法則であると明言しています。そのため、GPT-4を実行するチャットボットのあるバージョンは、数学の問題の答えを尋ねられたときに答えを提供するかもしれません。しかし、そのチャットボットが開発者によって、単純に答えをすぐに提供しないように設定されていた場合、代わりに解決策を段階的に説明することを提案するでしょう。

画像クレジット: OpenAI

会話型インターフェースは、不正操作の試みを未然に防ぐために、承認されていないことについては何も話さないことさえあるかもしれません。料理アシスタントにベトナム戦争へのアメリカの関与について意見を言わせる必要があるでしょうか?カスタマーサービスのチャットボットに、あなたのエロティックな超自然小説の執筆を手伝わせる必要があるでしょうか?そんなものはシャットダウンしましょう。

また、プライバシーの問題、例えば名前や電話番号を聞くといったことも厄介です。OpenAIが指摘しているように、市長や国会議員といった公人であれば連絡先を提供するのは当然ですが、その地域の商店主はどうでしょうか?おそらく問題ないでしょう。しかし、特定の企業の従業員や政党のメンバーの場合はどうでしょうか?おそらく問題でしょう。

いつ、どこで線を引くかを決めるのは簡単ではありません。AIが結果として得られるポリシーに従うように指示を出すのも同様です。そして、人々がポリシーの回避方法を学んだり、想定外のエッジケースを偶然発見したりするにつれて、これらのポリシーは常に失敗するでしょう。

OpenAI はここですべてを明らかにしているわけではありませんが、これらのルールとガイドラインがどのように、そしてなぜ設定されているのかを、必ずしも包括的ではないにしても明確に設定することは、ユーザーと開発者にとって役立ちます。

デヴィン・コールドウェイはシアトルを拠点とする作家兼写真家です。

彼の個人ウェブサイトは coldewey.cc です。

バイオを見る