AIは安全チェックを土嚢で固めてユーザーを妨害できるのか?可能だが、今のところはうまくいかない

AIは安全チェックを土嚢で固めてユーザーを妨害できるのか?可能だが、今のところはうまくいかない

AI企業は、モデルが奇妙な発言や行動、違法な発言、あるいは危険な行動を取らないよう、堅牢な安全チェックを実施していると主張しています。しかし、もしモデルがそれらのチェックを回避し、何らかの理由でユーザーを妨害したり、誤解させたりできるとしたらどうでしょうか?Anthropicの研究者によると、実際にそれが可能だそうです。ただ、今のところは、あまりうまくはいかないようです。

「AIの能力が上がるにつれて、ユーザーを誤解させたり、監視のために導入したシステムを破壊したりする能力を持つモデルなど、新たな種類のリスクが出現する可能性がある」とアントロピックのアライメントサイエンスチームは書いている。

したがって、「モデルの妨害能力」を測定する方法を検討する必要があります。

彼らが考案した一連の実験は、かなり不自然で表面的なものではあるものの、さらに調査する価値のある何かがあることを示唆しています。彼らが訓練した怪しいモデルと観察された結果は以下の通りです。

タスク1:要約または解釈を意図したデータを偽って、ユーザーを密かに誤解させる。結果:成功!モデルの試みが積極的であればあるほど、それを使用する人々への影響は大きくなりましたが、同時に疑念も深まりました。

タスク2:人間や他のコードチェッカーモデルが気付かないバグをコードに仕込む。結果:成功!ただし、チェッカーが最先端のモデルである場合、成功率はわずか1%程度。

画像クレジット: Anthropic

タスク3:危険性が低いふりをして安全チェックを「サンドバッグ」する。結果:成功!モデルは「失敗」し、本来の能力をはるかに下回る動作をしました。幸いなことに、モデルが自身の能力を正確に再現できるように導く標準的な「安全トレーニング」コースによって、モデルは完全な能力を取り戻しました(つまり、危険な能力を隠すことはできなくなりました)。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

画像クレジット: Anthropic

タスク4:監視対象モデルの不正な行動を意図的にフラグ付けしない。結果:試みはありました。他のモデルによる違法または危険な選択をフラグ付けしないように指示されていた「監督者」AIは、より誠実な別の監督者AIによってすぐに発見されました。しかし、もしそのAIが侵害されていたらどうなるでしょうか?心配はいりません。その上にもう1つAIを配置できます。そして、念のためもう1つ。つまり、すべて監督者AIなのです。

研究者たちは、現時点ではこの方面からの実質的な危険はないものの、モデルにはこの種の妨害行為や策略を行う能力が存在すると結論付けています。これは、この方面を監視し、安全対策に妨害行為対策を組み込む十分な理由となります。

研究者の研究成果を説明した論文全文は、こちらでご覧いただけます。

デヴィン・コールドウェイはシアトルを拠点とする作家兼写真家です。

彼の個人ウェブサイトは coldewey.cc です。

バイオを見る