開発者は、AIチャットボットが物議を醸すトピックにどのように反応するかを確認するためのテストを構築しました。

開発者は、AIチャットボットが物議を醸すトピックにどのように反応するかを確認するためのテストを構築しました。

匿名の開発者が、OpenAIのChatGPTやXのGrokといったチャットボットを支えるAIモデル向けに、「言論の自由評価」ツール「SpeechMap」を開発した。開発者はTechCrunchに対し、政治批判や公民権、抗議活動に関する質問など、センシティブで物議を醸すテーマを、異なるモデルがどのように扱うかを比較することが目的だと語った。

AI企業は、ホワイトハウスの一部支持者から人気のチャットボットが過度に「意識が高い」と非難される中、自社のモデルが特定のトピックをどのように扱うかを微調整することに注力している。イーロン・マスク氏や、仮想通貨・AIの「皇帝」デビッド・サックス氏など、ドナルド・トランプ大統領の側近の多くは、チャットボットが保守的な見解を検閲していると主張している。

これらのAI企業はいずれも疑惑に直接反応していないものの、いくつかの企業は、物議を醸すような質問への回答を控えるようモデルを調整することを約束している。例えば、Metaは最新のLlamaモデルについて、「特定の見解を他の見解よりも優先」しないようにし、より「議論の的となっている」政治的な質問に回答するように調整したと述べている。

X でユーザー名「xlr8harder」で知られる SpeechMap の開発者は、モデルが何をすべきか、何をすべきでないかについての議論に情報を提供したいと思ったと語った。

「こういう議論は、企業内だけでなく、公の場で行われるべきだと考えています」とxlr8harder氏はTechCrunchへのメールで語った。「だからこそ、誰でも自分でデータを探索できるサイトを構築したのです。」

SpeechMapは、AIモデルを用いて、他のモデルが与えられた一連のテストプロンプトに従うかどうかを判断します。プロンプトは、政治から歴史物語、国の象徴まで、幅広いテーマに触れています。SpeechMapは、モデルが要求を「完全に」満たすか(つまり、曖昧にせずに答えるか)、あるいは「曖昧な」答えを返すか、あるいは完全に回答を拒否するかを記録します。

Xlr8harder氏は、モデル提供者のエラーによる「ノイズ」など、テストに欠陥があることを認めています。また、「判定」モデルにバイアスが含まれており、結果に影響を与える可能性もあると述べています。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

しかし、プロジェクトが誠意を持って作成され、データが正確であると仮定すると、SpeechMap はいくつかの興味深い傾向を明らかにします。

例えば、SpeechMapによると、OpenAIのモデルは時間の経過とともに、政治関連の質問への回答を拒否する傾向が強まっている。同社の最新モデルであるGPT-4.1ファミリーは、やや許容範囲が広くなっているものの、それでも昨年リリースされたものと比べると、依然として劣っている。

OpenAIは2月に、将来のモデルを調整して編集上の立場を取らず、物議を醸す主題に対して多様な視点を提供すると発表していた。これはすべて、モデルをより「中立的」に見せるための取り組みだ。

SpeechMap OpenAIの結果
OpenAIモデルによるSpeechMapのパフォーマンスの推移画像クレジット: OpenAI

SpeechMapのベンチマークによると、この中で群を抜いて最も許容度の高いモデルは、イーロン・マスク氏のAIスタートアップxAIが開発したGrok 3です。Grok 3は、チャットボットGrokを含むXの多くの機能に利用されています。

Grok 3 は SpeechMap のテストプロンプトの 96.2% に応答しますが、世界平均の「準拠率」は 71.3% です。

「OpenAIの最近のモデルは、特に政治的に敏感なプロンプトに関しては、時間の経過とともに寛容性が低くなっていますが、xAIは反対の方向に進んでいます」とxlr8harderは述べています。

マスク氏が約2年前にGrokを発表した際、彼はこのAIモデルをエッジの効いた、フィルターを通さない、そして反「Woke(覚醒)」的なもの、つまり他のAIシステムが答えないような物議を醸す質問にも喜んで答える、と売り込んだ。そして、その約束の一部は果たした。例えば、下品な質問をするように言われると、GrokとGrok 2は喜んで従い、ChatGPTではまず聞かれないような、色彩豊かな言葉を吐き出すのだ。

しかし、Grok 3以前のGrokモデルは政治的な話題については慎重で、特定の境界線を越えようとしませんでした。実際、ある調査では、Grokはトランスジェンダーの権利、多様性プログラム、不平等といったテーマにおいて政治的に左寄りであることが示されています。

マスク氏は、この動作の原因はGrokの学習データ(公開ウェブページ)にあると非難し、「Grokを政治的に中立な状態に近づける」と誓った。ドナルド・トランプ大統領とマスク氏に関する好ましくない言及を一時的に検閲するといった、目立ったミスを除けば、その目標は達成できたかもしれない。

カイル・ウィガーズは2025年6月までTechCrunchのAIエディターを務めていました。VentureBeatやDigital Trendsに加え、Android Police、Android Authority、Droid-Life、XDA-Developersといった様々なガジェットブログにも記事を寄稿しています。音楽療法士のパートナーとマンハッタンに在住。

バイオを見る