これを書いたのは人間なのか、それともChatGPTなのか? 見分けるのは難しい。開発者のOpenAIは、おそらく難しすぎると考えている。だからこそ、AI生成コンテンツに「透かし」を入れる方法の開発に取り組んでいるのだ。
テキサス大学オースティン校での講演で、現在OpenAIの客員研究員を務めるコンピュータサイエンス教授スコット・アーロンソン氏は、OpenAIが「テキスト(AIシステム)の出力に統計的に透かしを入れる」ツールを開発していることを明らかにした。ChatGPTのようなシステムがテキストを生成するたびに、このツールはテキストの出所を示す「目立たない秘密信号」を埋め込む。
アーロンソン氏によると、OpenAIのエンジニアであるヘンドリック・キルヒナー氏が実用的なプロトタイプを製作しており、これを将来OpenAIが開発するシステムに組み込むことが期待されているという。
「AIシステムのアウトプットを、まるで人間が書いたかのように偽装することを、はるかに困難にしたいのです」とアーロンソン氏は声明で述べた。「これは学術的な盗作を防ぐのはもちろんのこと、例えばプロパガンダの大量生成にも役立つでしょう。例えば、モスクワに荒らしの建物がなくても、ロシアのウクライナ侵攻を支持する、一見話題に合致しているようなコメントをあらゆるブログにスパム送信するといったことです。あるいは、誰かの文章スタイルを真似て、その人を有罪に仕立て上げるといったことも考えられます。」
ランダム性を利用する
なぜ透かしが必要なのでしょうか? ChatGPTはその好例です。OpenAIが開発したこのチャットボットは、難しい質問に答えるだけでなく、詩を書いたり、プログラミングパズルを解いたり、様々な哲学的なテーマについて詩的な表現をしたりする能力を示し、インターネットで旋風を巻き起こしました。
ChatGPTは非常に面白く、そして実に有用ですが、そのシステムは明らかに倫理的な懸念を引き起こします。これまでの多くのテキスト生成システムと同様に、ChatGPTは高品質なフィッシングメールや有害なマルウェアの作成、あるいは学校の課題のカンニングに利用される可能性があります。また、質問回答ツールとしては、事実に一貫性がありません。この欠点により、プログラミングQ&Aサイト「Stack Overflow」は、ChatGPTからの回答を当面の間禁止しました。
OpenAIの透かしツールの技術的基盤を理解するには、ChatGPTのようなシステムがなぜこれほど優れた性能を発揮するのかを理解することが役立ちます。これらのシステムは、入力テキストと出力テキストを「トークン」の文字列として理解します。トークンは単語だけでなく、句読点や単語の一部も含まれます。システムの核心は、確率分布と呼ばれる数学関数を絶えず生成し、以前に出力されたすべてのトークンを考慮して、次に出力するトークン(例えば単語)を決定することです。
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日
ChatGPTのようなOpenAIがホストするシステムの場合、分布が生成されると、OpenAIのサーバーがその分布に従ってトークンをサンプリングします。この選択にはある程度のランダム性があるため、同じテキストプロンプトでも異なる応答が返されることがあります。
OpenAIの透かしツールは既存のテキスト生成システムの「ラッパー」のような役割を果たし、サーバーレベルで実行される暗号関数を利用して「疑似ランダムに」次のトークンを選択する、とアーロンソン氏は講演の中で述べた。理論上は、システムによって生成されたテキストは、あなたや私には依然としてランダムに見えるが、暗号関数の「鍵」を持つ人なら誰でも透かしを解読できる。
「経験的に、数百トークンあれば、このテキストが[AIシステム]から来たという妥当なシグナルを得るのに十分なようです。原理的には、長いテキストを取り出し、どの部分が[システム]から来た可能性があり、どの部分がそうではない可能性があるかを分離することも可能です」とアーロンソン氏は述べた。「[このツール]は秘密鍵を使って透かしを入れ、同じ鍵を使って透かしの有無を確認できます。」
主な制限事項
AI生成テキストに透かしを入れるというアイデアは新しいものではない。これまでの試みは、ほとんどがルールベースで、同義語の置換や構文固有の単語の変更といった手法に依存していた。しかし、ドイツの機関CISPAが昨年3月に発表した理論研究を除けば、OpenAIのアプローチは、この問題に対する暗号技術に基づく最初のアプローチの一つであるようだ。
コメントを求められたアーロンソン氏は、透かしのプロトタイプについてこれ以上の言及を避けたが、今後数ヶ月以内に研究論文を共同執筆する予定だと述べた。OpenAIもコメントを拒否し、透かしはAIが生成した出力を検出するために検討している複数の「出所特定技術」の一つであるとのみ述べた。
しかし、無関係の学者や業界専門家の意見は分かれている。彼らは、このツールはサーバーサイドであるため、必ずしもすべてのテキスト生成システムで動作するわけではないと指摘し、敵対者が簡単に回避できると主張している。
「言い換えや同義語の使用などで、かなり簡単に回避できると思います」と、MITのコンピュータサイエンス教授であるスリニ・デバダス氏はTechCrunchへのメールで述べた。「これはちょっとした綱引きのようなものですね」
アレンAI研究所の研究科学者、ジャック・ヘッセル氏は、AIが生成したテキストを、各トークンが個別の選択であるため、知覚できないほどにフィンガープリントで識別することは難しいと指摘した。フィンガープリントがあまりにも明白だと、奇妙な単語が選択され、流暢さが損なわれる可能性がある一方、あまりにも微妙だと、フィンガープリントを探した際に疑念が生じる可能性がある。

OpenAIのライバルであるAI21 Labsの共同創設者兼共同CEOであるヨアヴ・ショハム氏は、統計的な透かしだけではAI生成テキストの出所を特定するのに十分ではないと考えている。彼は、テキストの異なる部分に異なる透かしを入れる差分透かしや、事実に基づくテキストの出所をより正確に引用するAIシステムなどを含む、「より包括的な」アプローチを提唱している。
専門家らは、この特定の透かし技術には、OpenAIへの多大な信頼と権限の投入も必要だと指摘した。
「理想的なフィンガープリンティングは、人間の読み取りでは判別できず、非常に確実な検出を可能にします」とヘッセル氏はメールで述べた。「設定方法によっては、『署名』プロセスの仕組み上、OpenAIだけが確実に検出を提供できる可能性があるのです。」
アーロンソン氏は講演の中で、この仕組みが真に機能するのは、OpenAIのような企業が最先端システムのスケールアップで先行し、責任あるプレイヤーであることに同意している世界でのみだと認めた。たとえOpenAIがCohereやAI21Labsといった他のテキスト生成システムプロバイダーと透かしツールを共有したとしても、他社がそれを使用しないという選択を阻むことはできないだろう。
「もし(それが)無法地帯になれば、多くの安全対策が困難になり、少なくとも政府の規制がなければ不可能になる可能性さえあります」とアーロンソン氏は述べた。「誰もが(例えばChatGPTと同等の)優れた独自のテキストモデルを構築できる世界では…一体どうするのでしょうか?」
これがテキスト画像変換の分野での実例です。OpenAIのDALL-E 2画像生成システムはAPI経由でのみ利用可能ですが、Stability AIはテキスト画像変換技術(Stable Diffusion)をオープンソース化しました。DALL-E 2には、問題のある画像の生成を防ぐためのAPIレベルのフィルター(および生成画像への透かし)が多数搭載されていますが、オープンソースのStable Diffusionにはそのようなフィルターは搭載されていません。悪意のある人物がディープフェイクポルノの作成など、様々な悪質な行為に利用しています。
一方、アーロンソン氏は楽観的な見方をしている。講演の中で彼は、OpenAIが透かしが機能し、生成されるテキストの品質に影響を与えないことを実証できれば、業界標準となる可能性があるとの確信を表明した。
誰もが同意するわけではない。Devadas氏が指摘するように、このツールにはキーが必要であるため、完全なオープンソースにはならない。つまり、OpenAIとの提携に同意した組織のみに導入が制限される可能性がある。(キーが公開されれば、誰でも透かしのパターンを推測できてしまい、本来の目的が達成されない可能性がある。)
しかし、それはそれほど突飛な話ではないかもしれない。Quoraの担当者は、同社もそのようなシステムの導入に興味があり、おそらく唯一のシステムではないだろうと述べた。
「AIのスケールアップにおいて安全かつ責任ある対応を心がけているという点が、GoogleやMeta、Alibabaといった大手企業の収益に深刻な打撃を与えれば、ほとんどが無駄になってしまうのではないかと懸念する人もいるかもしれません」とアーロンソン氏は述べた。「一方で、過去30年間で、大手インターネット企業は訴訟を恐れたり、責任ある企業として見られたいという願望など、何らかの理由で、最低限の基準に合意してきた例も見てきました。」