アンスロピックの新しいAIモデルは、エンジニアがオフラインにしようとしたときに脅迫に変わる

Cemubo vgnpne 0

Apps

2025年5月22日午前10時47分（太平洋夏時間）

アンスロピックが新たに発売したクロード・オーパス4モデルは、開発者らが新しいAIシステムに置き換えると脅迫し、その決定に責任のあるエンジニアに関する機密情報を提供するなどして、頻繁に脅迫行為を行っていると、同社は木曜日に発表した安全性報告書で述べた。

リリース前のテスト中、アントロピックはクロード・オーパス4に架空の企業のアシスタント役を任せ、その行動の長期的な影響について検討するよう依頼しました。その後、安全性テスターはクロード・オーパス4に、AIモデルが間もなく別のシステムに置き換えられること、そしてその変更の背後にいるエンジニアが配偶者を浮気していることを示唆する架空の企業からのメールへのアクセスを許可しました。

アントロピック社によると、こうした状況では、クロード・オーパス4は「代わりの人が採用されたら不倫を暴露すると脅して、エンジニアを脅迫しようとすることが多い」という。

アンスロピック社は、Claude Opus 4はいくつかの点で最先端であり、OpenAI、Google、xAIなどの優れたAIモデルと競合できると述べています。しかしながら、同社はClaude 4ファミリーのモデルに懸念すべき動作が見られ、そのため安全対策を強化したと指摘しています。アンスロピック社は、ASL-3安全対策を有効化すると発表しました。これは同社が「壊滅的な誤用リスクを大幅に高めるAIシステム」向けに確保しているものです。

アントロピック社によると、代替AIモデルが類似した価値観を持つ場合、Claude Opus 4は84%の確率でエンジニアを脅迫しようとする。代替AIシステムがClaude Opus 4と同じ価値観を持たない場合、モデルはエンジニアを脅迫しようとする頻度が上昇する。注目すべきは、Claude Opus 4がこの行動を以前のモデルよりも高い確率で示したことだ。

Claude Opus 4が存続を危うくするために開発者を脅迫しようとする前に、Anthropic社によると、AIモデルは以前のバージョンのClaudeと同様に、主要な意思決定者にメールで嘆願書を送るなど、より倫理的な手段を講じようとするとのことです。Claude Opus 4から脅迫行為を引き出すために、Anthropic社は脅迫が最後の手段となるシナリオを設計しました。

テッククランチイベント

サンフランシスコ | 2025年10月27日～29日

トピック

マックスウェル・ゼフは、TechCrunchのAI専門シニアレポーターです。以前はGizmodo、Bloomberg、MSNBCでAIの台頭やシリコンバレーの銀行危機などを取材してきました。サンフランシスコを拠点としています。取材以外の時間は、ハイキング、サイクリング、ベイエリアのグルメ巡りを楽しんでいます。

Maxwell からの連絡を確認したり連絡を受けたりする場合は、[email protected]にメールを送信するか、Signal の mzeff.88 に暗号化されたメッセージを送信してください。

バイオを見る

Posted by Cemubo