画像生成AIはトレーニングデータからコピー&ペーストできるため、知的財産権に関する懸念が生じている。

画像生成AIはトレーニングデータからコピー&ペーストできるため、知的財産権に関する懸念が生じている。

DALL-E 2やStable Diffusionなどの画像生成AIモデルは、トレーニングデータから画像の側面を複製することができ、実際に複製していることが研究者らによる新たな研究で示されており、これらのサービスが広く商業利用されるようになるにつれて懸念が生じている。

念のため言っておきますが、この研究はまだ査読を受けていません。匿名を条件にこの分野の研究者が、TechCrunchにメールで概要を説明してくれました。

「安定拡散モデルのような拡散モデルは美しい画像を生成するだけでなく、多くの場合、非常に独創的で特定のテキストプロンプトに合わせてカスタマイズされたように見える画像を生成します。しかし、これらの画像は実際にはトレーニングデータから丸ごとコピーされている場合もあれば、トレーニング画像の一部のみをコピーしている場合もあることを私たちは示しました」と研究者は述べています。「拡散モデルを用いてデータを生成している企業は、知的財産法に関するあらゆる点で再考する必要があるかもしれません。安定拡散モデルによって生成された特定の画像が新規であり、トレーニングデータから盗用されたものではないことを検証することは事実上不可能です。」

ノイズからの画像

Stable Diffusionのような最先端の画像生成システムは、「拡散」モデルと呼ばれるものです。拡散モデルは、膨大な訓練データセットを学習しながら、テキストプロンプト(例:「窓辺にとまった鳥のスケッチ」)から画像を生成する方法を学習します。ゼロから画像を描くのではなく、「再生成」するように訓練されたこれらのモデルは、純粋なノイズから始めて、時間の経過とともに画像を洗練させ、テキストプロンプトに徐々に近づけていきます。

直感的に操作できる技術とは言えませんが、フォトリアリスティックアートを含む、ほぼあらゆるスタイルのアート作品を生成するのに非常に優れています。実際、Diffusionは、Lensaの合成アバターからCanvaのアートツールまで、多くの注目を集めるアプリケーションを実現してきました。DeviantArtは最近、Stable Diffusionを搭載したカスタムアート作品作成アプリをリリースしました。また、MicrosoftはMicrosoft Edgeに搭載予定のジェネレーティブアート機能にDALL-E 2を採用しています。

安定拡散コピー
上は、モデルのトレーニングセット内のランダムなキャプションからStable Diffusionによって生成された画像です。下は、研究者が元の画像と一致するように指示した画像です。画像クレジット: Somepalli et al.

誤解のないよう明確にしておくと、拡散モデルがトレーニング画像の要素を模倣することは、謎ではありませんでした。トレーニング画像は通常、ウェブから無差別に収集されます。ホリー・メンガートやグレッグ・ルトコウスキーといったキャラクターデザイナーは、彼らの古典的な絵画スタイルとファンタジー風景が「安定拡散」で最もよく使われるプロンプトの一つとなっていますが、彼らは、自分たちの名前に結びついているにもかかわらず、AIの粗悪な模倣だと非難しています。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

しかし、拡散システムはさまざまなソースから得られる数十億枚以上の画像でトレーニングされているため、コピーがどのくらいの頻度で発生するかを経験的に測定することは困難でした。

研究者たちは、キャプションをStable Diffusionに入力し、システムに新しい画像を作成させました。そして、それぞれの画像に新しいキャプションを書き、Stable Diffusionに合成画像を複製させようと試みました。自動類似点検出ツールを用いて、生成された2つの画像セット(LAION-Aestheticsのキャプションから作成された画像セットと、研究者のプロンプトから作成された画像セット)を比較したところ、結果全体にわたってStable Diffusionによる「かなりの量の複製」が見られ、背景やオブジェクトがトレーニングセットから再利用されていたことが分かりました。

「キャンバス ウォールアートプリント」というプロンプトでは、常に特定のソファの画像が返されました。これは、拡散モデルが意味概念を画像に関連付ける方法を示す、比較的ありふれた例です。「絵画」や「波」という単語を含む他のプロンプトでは、葛飾北斎の「神奈川沖浪裏」に似た波の画像が生成されました。

研究者によると、すべての実験を通して、Stable Diffusionは約1.88%の割合でトレーニングデータセットから「コピー」したという。これは大したことではないように思えるかもしれないが、今日の拡散システムの普及率を考えると(ある概算によると、Stable Diffusionは10月時点で1億7000万枚以上の画像を作成している)、無視するのは難しい。

「アーティストやコンテンツ制作者は、他人が同意なしに自分たちのコンテンツから利益を得ている可能性があることに絶対に警戒すべきだ」と研究者は述べた。

意味合い

共著者らは、安定拡散世代のいずれもそれぞれのLAION-Aestheticsソース画像と一致しなかったこと、そしてテストしたすべてのモデルが同じようにコピーされやすいわけではないことを指摘しています。モデルがコピーされる頻度は、トレーニングデータセットのサイズなど、いくつかの要因に依存しており、データセットが小さいほど、大きいデータセットよりもコピーされる傾向がありました。

研究者らが調査したシステムの一つ、オープンソースのImageNetデータセットで訓練された拡散モデルは、「どの世代でも顕著な複製は見られなかった」と研究者らは記している。

共著者らはまた、研究結果から過度な外挿をしないように勧告した。計算コストの制約により、実験ではStable Diffusionの完全なトレーニングセットのごく一部しかサンプリングできなかった。

安定拡散コピー
安定拡散モデルがトレーニングデータセットから要素をコピーする例。画像提供: Somepalli他

「現在、データは盲目的にキュレーションされており、データセットがあまりにも膨大であるため、人間によるスクリーニングは不可能です」と研究者は述べた。「拡散モデルは驚くほど強力で、非常に印象的な結果を示してきたため、これを放棄することはできません。しかし、プライバシーを損なうことなくそのパフォーマンスを維持する方法を検討する必要があります。」

法的影響以外にも、プロンプトによって、画像トレーニングデータセットに埋め込まれた機密性の高いデータが直接的または間接的に漏洩する可能性があるという懸念があります。Ars Technicaの最近のレポートで明らかになったように、Stable Diffusionのデータセットには、数千枚もの個人の医療記録が隠されています。

共著者らは、差分プライバシートレーニングと呼ばれる手法(彼ら自身は先駆者ではない)による解決策を提案している。これは、拡散モデルをトレーニングに使用したデータに対して「鈍感化」させ、その過程で元のデータのプライバシーを保護するというものだ。差分プライバシートレーニングは通常、パフォーマンスを低下させるが、他の手法が失敗した場合、プライバシーと知的財産を保護するために支払うべき代償となる可能性があると研究者らは述べている。

「モデルがデータを記憶してしまうと、生成された画像がオリジナルかどうかを検証するのは非常に困難になります」と研究者は述べた。「コンテンツ制作者は、このリスクに気づき始めていると思います。」