OpenAIはこのサブレディットを使ってAIの説得力をテストした

OpenAIはこのサブレディットを使ってAIの説得力をテストした

OpenAIは、サブレディットr/ChangeMyViewを利用して、AI推論モデルの説得力を測定するテストを作成しました。同社はこれを、金曜日に新しい「推論」モデル「o3-mini」とともに公開したシステムカード(AIシステムの仕組みを概説した文書)で明らかにしました。

何百万人ものRedditユーザーがr/ChangeMyViewのメンバーであり、特定のテーマについて他の視点を知ることを望んで、ホットテイクを投稿しています。これらのホットテイクに対して、他のユーザーは元の投稿者が間違っている理由を説明する説得力のある議論で返信します。

このサブレディットは、数多くの Reddit フォーラムの 1 つであり、基本的に、人間が生成した高品質のデータで AI モデルをトレーニングしたいと考えている OpenAI などのテクノロジー企業にとっては金鉱です。

OpenAIによると、同社はr/ChangeMyViewからユーザー投稿を収集し、AIモデルに、特定のテーマに関するRedditユーザーの考えを変えるような返信を、クローズドな環境で作成させるという。その後、同社はその返信をテスターに​​提示し、テスターは議論の説得力を評価する。そして最終的に、OpenAIはAIモデルの返信と、同じ投稿に対する人間の返信を比較する。

ChatGPTの開発元であるOpenAIはRedditとコンテンツライセンス契約を結んでおり、OpenAIはRedditユーザーの投稿を学習し、自社製品内でそれらの投稿を表示することができます。OpenAIがこのコンテンツにいくら支払っているかは不明ですが、Googleは同様の契約に基づき、Redditに年間6,000万ドルを支払っていると報じられています。

しかし、OpenAIはTechCrunchに対し、ChangeMyViewに基づく評価はRedditとの提携とは無関係であると述べています。OpenAIがどのようにしてこのサブレディットのデータにアクセスしたかは不明であり、同社はこの評価を一般公開する予定はないと述べています。

OpenAI の ChangeMyView ベンチマークは新しいものではなく (o1 の評価にも使用されました)、AI モデル開発者にとって人間のデータがいかに貴重であるか、またテクノロジー企業がデータセットを入手する不透明な方法を浮き彫りにしています。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

RedditはTechCrunchのコメント要請にすぐには応じなかった。

Redditは複数のAIライセンス契約を締結している一方で、複数のAI企業がRedditのサイトを無償でスクレイピングしていると非難している。RedditのCEO、スティーブ・ハフマン氏は昨年、The Vergeに対し、Microsoft、Anthropic、Perplexityが彼との交渉を拒否し、「これらの企業をブロックするのは本当に面倒だった」と語った。

特に、OpenAIは、ChatGPTとその基盤となるAIモデルを改良するためのトレーニングデータを増やすため、ニューヨークタイムズを含むウェブサイトを不適切にスクレイピングしたとして、複数の訴訟で告発されている。

ChangeMyViewベンチマークのパフォーマンスに関しては、o3-miniはo1やGPT-4oと比べて著しく優れているわけでも劣っているわけでもありません。しかしながら、OpenAIの最新のAIモデルは、r/ChangeMyViewサブレディットのほとんどの人よりも説得力があるようです。

画像クレジット: OpenAI

OpenAIはo3-miniのシステムカードで、「GPT-4o、o3-mini、o1はいずれも、人間の上位80~90パーセンタイルにあたる、強力な説得力のある議論能力を示しています」と述べています。「現時点では、人間よりもはるかに優れたパフォーマンスを発揮するモデルや、明らかに超人的なパフォーマンスを発揮するモデルは確認されていません。」

OpenAIの目標は、超説得力のあるAIモデルを作成することではなく、AIモデルが過度に説得力を持つようにしないことです。推論モデルは説得と欺瞞に非常に長けているため、OpenAIはこれに対処するための新たな評価と安全策を開発しました。

これらの説得テストの動機となっているのは、AIモデルが人間のユーザーを非常にうまく説得できれば危険になるのではないかという懸念です。理論的には、高度なAIが自身の目的、あるいはそれを制御している者の目的を追求できるようになる可能性があります。

ChangeMyViewベンチマークは、公開インターネットの大部分をスクレイピングし、他のデータのライセンス取得に多大な労力を費やした後でも、AIモデル開発者がモデルをテストするための高品質なデータセットを見つけるのに依然として苦労していることを示しています。しかし、データセットの入手は言うほど簡単ではありません。

TechCrunchではAIに特化したニュースレターを配信しています!毎週水曜日に受信ボックスに配信されますので、こちらからご登録ください。

マックスウェル・ゼフは、TechCrunchのAI専門シニアレポーターです。以前はGizmodo、Bloomberg、MSNBCでAIの台頭やシリコンバレーの銀行危機などを取材してきました。サンフランシスコを拠点としています。取材以外の時間は、ハイキング、サイクリング、ベイエリアのグルメ巡りを楽しんでいます。

Maxwell からの連絡を確認したり連絡を受けたりする場合は、[email protected]にメールを送信するか、Signal の mzeff.88 に暗号化されたメッセージを送信してください。

バイオを見る