OpenAIがChatGPTを含むAI生成テキストを検出するツールをリリース

OpenAIがChatGPTを含むAI生成テキストを検出するツールをリリース

OpenAIはメディア出演でこの動きを予告した後、人間が書いたテキストとAIが生成したテキスト(同社独自のChatGPTおよびGPT-3モデルによって生成されたテキストなど)を区別するツールを公開しました。この分類器はそれほど正確ではありません(OpenAIによると、成功率は約26%)。しかし、他の手法と併用することで、AIテキスト生成器の悪用を防ぐのに役立つ可能性があるとOpenAIは主張しています。

「この分類器は、AIが生成したテキストが人間によって書かれたという誤った主張を軽減することを目的としています。しかし、まだいくつかの限界があるため、主要な判断ツールとしてではなく、テキストの出所を判断する他の方法を補完するものとして利用されるべきです」と、OpenAIの広報担当者はTechCrunchへのメールで述べた。「この初期段階の分類器を公開することで、このようなツールの有用性に関するフィードバックを得るとともに、将来的には改良された手法を共有したいと考えています。」

生成AI、特にテキスト生成AIへの関心が高まるにつれ、批評家たちはこれらのツールの開発者に対し、潜在的な有害影響を軽減するための措置を講じるよう求めています。米国最大規模の学区の中には、生徒の学習への影響やツールが生成するコンテンツの正確性への懸念から、ChatGPTをネットワークやデバイスから禁止しているところもあります。また、Stack Overflowなどのウェブサイトは、ChatGPTによって生成されたコンテンツの共有を禁止しています。ChatGPTのAIによって、ユーザーが疑わしい回答でディスカッションスレッドを溢れさせることが容易になっているためです。

OpenAIの分類器(その名もOpenAI AI Text Classifier)は、そのアーキテクチャが実に興味深い。ChatGPTと同様に、Web上で公開されている膨大なテキスト例を用いて学習されたAI言語モデルである。しかし、ChatGPTとは異なり、あるテキストがAIによって生成された可能性を予測するように微調整されている。ChatGPTだけでなく、あらゆるテキスト生成AIモデルによって生成された可能性を予測できるのだ。

具体的には、OpenAIはOpenAI AI Text Classifierを、OpenAI自身を含む5つの異なる組織の34のテキスト生成システムから抽出したテキストで学習させました。このテキストは、Wikipediaの類似(ただし完全には類似していない)な人間が書いたテキスト、Redditで共有されたリンクから抽出したウェブサイト、そして以前のOpenAIテキスト生成システムのために収集された一連の「人間によるデモンストレーション」と組み合わせられました。(ただし、OpenAIはサポートドキュメントの中で、「インターネット上でAI生成コンテンツが急増していることを考慮すると」、一部のAIが書いたテキストを誤って人間が書いたものと分類した可能性があることを認めています。)

重要なのは、OpenAI Text Classifierはどんなテキストでも動作するわけではないということです。最低1,000文字、つまり約150~250語が必要です。盗作は検出されません。テキスト生成AIは、学習に使用したテキストをそのまま繰り返すことが示されていることを考えると、これは非常に残念な制限です。また、OpenAIによると、英語を優先するデータセットを使用しているため、子供が書いたテキストや英語以外の言語で書かれたテキストでは誤認識する可能性が高くなるとのことです。

検出器は、特定のテキストがAI生成であるかどうかを評価する際に、多少曖昧な回答をします。信頼度レベルに応じて、テキストを「AI生成の可能性は極めて低い」(10%未満の確率)、「AI生成の可能性は低い」(10%から45%の確率)、「AI生成かどうかは不明」(45%から90%の確率)、「AI生成の可能性あり」(90%から98%の確率)、「AI生成の可能性あり」(98%以上の確率)と分類します。

好奇心から、この分類器にテキストを流し込んで、どの程度の精度で分類できるか試してみました。MetaのHorizo​​n Worldsに関するTechCrunchの記事のいくつかの段落と、OpenAIのサポートページの一部はAI生成ではないと自信を持って正確に予測しましたが、ChatGPTからの出力は記事並みの長さで、最終的には分類できませんでした。しかし、Gizmodoの記事(なんとChatGPTに関する記事)のChatGPT出力は見事に検出しました。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

OpenAIによると、この分類器は人間が書いたテキストをAIが書いたものと誤って分類する確率が9%だそうです。この間違いは私のテストでは発生しませんでしたが、サンプル数が少なかったことが原因だと考えています。

OpenAIテキスト分類器
画像クレジット: OpenAI

実用面では、この分類器は短い文章の評価には特に役立たないと感じました。実際、1,000文字という文字数は、例えばメール(少なくとも私が定期的に受け取るもの)などのメッセージでは到達するのが難しい閾値です。また、この制限は疑問を抱かせます。OpenAIは、生成されたテキスト内の一部の単語や節を変更することで、この分類器を回避できることを強調しています。

これは、この分類システムが役に立たないという意味ではありません。むしろ、全く違います。しかし、現状のままでは、不正行為者(あるいは学生)を阻止することは不可能でしょう。

問題は、他のツールがAI生成テキスト検出ツールの需要に応えるべく、一種の家内工業が生まれつつあることだ。プリンストン大学の学生が開発したChatZeroは、「パープレキシティ」(テキストの複雑さ)や「バーストネス」(文章のバリエーション)といった基準を用いて、テキストがAIによって書かれたかどうかを検出している。盗作検出ツールのTurnitinも独自のAI生成テキスト検出ツールを開発中だ。これら以外にも、Google検索をすれば、AI生成の良し悪しを人間生成の悪しきものと区別できると主張するアプリが少なくとも6つは見つかる。これは、この比喩を歪めるものだ。

おそらく、いたちごっこになるでしょう。テキスト生成AIが進化するにつれて、検出技術も進化します。サイバー犯罪者とセキュリティ研究者の間の駆け引きのように、終わりのないやり取りが続くのです。OpenAIの記述にあるように、分類器は特定の状況では役立つかもしれませんが、テキストがAIによって生成されたかどうかを判断するための唯一の信頼できる証拠となることは決してないでしょう。

つまり、AI生成テキストがもたらす問題を解決する特効薬は存在しないということです。おそらく、今後も存在しないでしょう。

カイル・ウィガーズは2025年6月までTechCrunchのAIエディターを務めていました。VentureBeatやDigital Trendsに加え、Android Police、Android Authority、Droid-Life、XDA-Developersといった様々なガジェットブログにも記事を寄稿しています。音楽療法士のパートナーとマンハッタンに在住。

バイオを見る