OpenAIのモデルは著作権で保護されたコンテンツを「記憶」していた、と新たな研究が示唆

OpenAIのモデルは著作権で保護されたコンテンツを「記憶」していた、と新たな研究が示唆

ワシントン大学、コペンハーゲン大学、スタンフォード大学の研究者らが共同執筆したこの研究では、OpenAIのようなAPIの背後にあるモデルによって「記憶」されたトレーニングデータを識別する新しい方法を提案している。

モデルは予測エンジンです。大量のデータで訓練され、パターンを学習します。こうして、エッセイや写真などを生成できるのです。出力のほとんどは訓練データの完全なコピーではありませんが、モデルの「学習」方法の性質上、必然的に一部はそのままコピーされます。画像モデルは訓練に使用した映画のスクリーンショットをそのまま再現することが確認されており、言語モデルはニュース記事を盗用するケースも確認されています。

この研究の手法は、共著者らが「ハイサプライズ」と呼ぶ単語、つまり、より大きな研究の文脈の中で特に珍しい単語に着目している。例えば、「ジャックと私はレーダーのハミング音を聞きながらじっと座っていた」という文中の「レーダー」という単語は、「エンジン」や「ラジオ」といった単語よりも「ハミング」の前に現れる確率が低いため、「ハイサプライズ」とみなされる。

共著者らは、GPT-4やGPT-3.5を含む複数のOpenAIモデルを用いて、フィクション書籍やニューヨーク・タイムズの記事のスニペットから、意外性が高い単語を取り除いた上で、どの単語が隠されているかをモデルに「推測」させることで、記憶の兆候を探りました。モデルが正しく推測できた場合、訓練中にスニペットを記憶していた可能性が高いと共著者らは結論付けています。

OpenAIの著作権調査
モデルに驚き度の高い単語を「推測」させる例。画像クレジット: OpenAI

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

ワシントン大学の博士課程の学生で、この研究の共著者であるアビラシャ・ラヴィチャンダー氏は、この発見は、モデルが訓練された可能性のある「物議を醸すデータ」に光を当てるものだとTechCrunchに語った。

「信頼できる大規模言語モデルを構築するには、科学的に調査、監査、検証できるモデルが必要です」とラヴィチャンダー氏は述べた。「私たちの研究は、大規模言語モデルを調査するためのツールを提供することを目指していますが、エコシステム全体におけるデータの透明性の向上が真に求められています。」

カイル・ウィガーズは2025年6月までTechCrunchのAIエディターを務めていました。VentureBeatやDigital Trendsに加え、Android Police、Android Authority、Droid-Life、XDA-Developersといった様々なガジェットブログにも記事を寄稿しています。音楽療法士のパートナーとマンハッタンに在住。

バイオを見る