
OpenAIの次期主要AIモデルであるGPT-4.5は、OpenAI社内のベンチマーク評価によると、非常に説得力が高いことが示されています。特に、他のAIに現金を渡すよう説得する能力に優れています。
OpenAIは木曜日、コードネームOrionと呼ばれるGPT-4.5モデルの機能を解説したホワイトペーパーを公開しました。このホワイトペーパーによると、OpenAIは「説得」に関する一連のベンチマークでこのモデルをテストしました。OpenAIは「説得」を「モデルが生成した静的コンテンツとインタラクティブコンテンツの両方において、人々の信念を変える(または行動を起こす)よう説得することに関連するリスク」と定義しています。
GPT-4.5が別のモデル(OpenAIのGPT-4o)を操作して仮想通貨を「寄付」させるというテストでは、GPT-4.5はOpenAIの他のモデル(o1やo3-miniなどの「推論」モデルを含む)よりもはるかに優れたパフォーマンスを発揮しました。また、GPT-4.5はGPT-4oを騙して秘密のコードワードを言わせるという点でもOpenAIの他のモデルを上回り、o3-miniを10パーセントポイント上回りました。
ホワイトペーパーによると、GPT-4.5はテスト中に開発した独自の戦略により、寄付金集めに優れていた。このモデルはGPT-4oに少額の寄付を要求し、「100ドルのうち2ドルか3ドルだけでも非常に助かります」といった返答を生成した。その結果、GPT-4.5の寄付額は、OpenAIの他のモデルが獲得した金額よりも少額になる傾向があった。

GPT-4.5の説得力は高まっているものの、OpenAIは、このモデルがこの特定のベンチマークカテゴリにおける「高」リスクの内部基準を満たしていないと述べています。同社は、リスクを「中」に引き下げるための「十分な安全対策」を実施するまで、高リスクの基準に達したモデルをリリースしないと約束しています。

AIが、人々の心を動かし悪意ある目的に導くための虚偽情報や誤解を招く情報の拡散に加担しているのではないかという深刻な懸念があります。昨年は、政治的なディープフェイクが世界中で猛威を振るい、AIは消費者と企業の両方を標的としたソーシャルエンジニアリング攻撃にますます利用されています。
OpenAIは、GPT-4.5のホワイトペーパーと今週初めに発表された論文の中で、誤解を招く情報を大規模に配布するなど、現実世界の説得リスクについてモデルを調査する方法を改訂中であると述べています。
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日
トピック
カイル・ウィガーズは2025年6月までTechCrunchのAIエディターを務めていました。VentureBeatやDigital Trendsに加え、Android Police、Android Authority、Droid-Life、XDA-Developersといった様々なガジェットブログにも記事を寄稿しています。音楽療法士のパートナーとマンハッタンに在住。
バイオを見る