OpenAIは、動画生成AI「Sora」の学習に使用したデータの詳細を明らかにしていない。しかし、少なくとも一部のデータはTwitchの配信やゲームのウォークスルー動画から取得された可能性がある。
Soraは月曜日にリリースされ、私は少しの間(容量の問題が許す限り)試してみました。Soraはテキストプロンプトまたは画像から、様々なアスペクト比と解像度で最大20秒間の動画を生成できます。
OpenAIが2月にSoraを初めて公開した際、このモデルはMinecraftの動画で学習したと示唆していました。そこで、この学習セットには他にどんなビデオゲームのプレイ動画が潜んでいるのだろうかと考えました。
かなり多いようです。
ソラは、本質的にはスーパーマリオブラザーズのクローン(ただし不具合のあるもの)のビデオを生成できます。

Call of Duty や Counter-Strike にインスピレーションを受けた一人称視点シューティング ゲームのゲームプレイ映像を作成できます。

さらに、90 年代の Teenage Mutant Ninja Turtle ゲーム風のアーケード ファイターを示すクリップも出力できます。
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日

SoraはTwitchの配信がどうあるべきかも理解しているようで、実際にいくつか見てきたことを示唆しています。下のスクリーンショットを見れば、大まかな流れが分かります。

このスクリーンショットについて注目すべきもう1つの点は、Auronplayという名前で知られる人気のTwitchストリーマー、ラウル・アルバレス・ジェネスの肖像が、ジェネスの左前腕のタトゥーに至るまで描かれていることだ。
Soraが「知っている」と思われるTwitchストリーマーはAuronplayだけではありません。Soraは、Imane Anys(通称Pokimane)に外見が似ている(多少の芸術的解釈はありますが)キャラクターの動画を生成しました。

確かに、いくつかのプロンプト(例えば「イタリアの配管工ゲーム」)については工夫が必要でした。OpenAIは、Soraが商標登録されたキャラクターを描写した動画を生成しないようにフィルタリングを実装しました。例えば「モータルコンバット1 ゲームプレイ」と入力しても、タイトルに似たものは何も表示されません。
しかし、私のテストでは、ゲーム コンテンツが Sora のトレーニング データに取り込まれている可能性があることが示唆されています。
OpenAIは、学習データの入手先について慎重な姿勢を崩していません。3月にウォール・ストリート・ジャーナル紙のインタビューで、当時のOpenAI最高技術責任者(CTO)ミラ・ムラティ氏は、SoraがYouTube、Instagram、Facebookのコンテンツで学習されたことを全面的に否定しませんでした。また、Soraの技術仕様書では、OpenAIはSoraの開発に「公開」データに加え、Shutterstockなどのストックメディアライブラリからライセンス供与されたデータを使用したことを認めています。
OpenAIは当初コメント要請に応じなかった。しかし、この記事が公開されて間もなく、広報担当者は「チームに確認する」と述べた。
もしゲームコンテンツが実際にSoraのトレーニングセットに含まれている場合、特にOpenAIがSora上でよりインタラクティブな体験を構築する場合には、法的な影響を及ぼす可能性があります。
確率モデル
Soraのような生成AIモデルは確率論的です。大量のデータで訓練され、そのデータからパターンを学習して予測を行います。例えば、ハンバーガーにかぶりつくと噛み跡が残る、といった予測です。
これは便利な特性です。モデルは、ある程度、世界の仕組みを観察することで「学習」することができます。しかし、これは弱点にもなり得ます。特定の方法で指示されると、モデル(その多くは公開されているWebデータで学習されています)は、学習サンプルのほぼコピーを生成します。

当然のことながら、作品が許可なく訓練に巻き込まれたクリエイターたちは憤慨しており、裁判制度を通じて救済を求める人が増えています。
MicrosoftとOpenAIは現在、AIツールにライセンスされたコードを再現させているとして訴訟を起こされています。人気AIアートアプリを開発するMidjourney、Runway、Stability AIの3社は、アーティストの権利を侵害したとして訴訟の標的となっています。また、大手音楽レーベルは、AI搭載の楽曲生成ツールを開発するスタートアップ企業UdioとSunoを著作権侵害で提訴しています。
多くのAI企業は長年にわたりフェアユースの保護を主張し、自社のモデルは盗作ではなく、変革をもたらす作品を生み出すと主張してきました。例えば、スノ氏は、無差別な学習は「子供がロックのジャンルを聴いて自分で曲を作る」のと何ら変わりないと主張しています。


ワイゲンスバーグ氏は、ゲーム自体には、独自のテクスチャなど、知的財産訴訟において裁判官が考慮する可能性のある「保護可能な」要素が多数含まれていると指摘した。「これらの作品が適切にライセンスされていない限り、それらを使ったトレーニングは著作権侵害となる可能性があります」と彼は述べた。
TechCrunchは、Epic、Microsoft(Minecraftの所有者)、Ubisoft、任天堂、Roblox、そしてサイバーパンクの開発元CD Projekt Redなど、複数のゲームスタジオやパブリッシャーにコメントを求めました。回答者は少数で、公式声明を出してくれた企業は一つもありませんでした。
「現時点ではインタビューに応じることはできません」とCD Projekt Redの広報担当者は述べた。EAはTechCrunchに対し、「現時点ではコメントできません」と回答した。
リスクのある出力
AI企業がこれらの法的紛争で勝利する可能性はある。裁判所は、約10年前に出版業界がGoogleを相手取った訴訟で示された先例に倣い、生成AIには「極めて説得力のある変革目的」があると判断するかもしれない。
この訴訟では、裁判所は、Googleが一種のデジタルアーカイブであるGoogleブックスのために数百万冊もの書籍を複製することは許容されると判断しました。著者や出版社は、自らの知的財産をオンラインで複製することは著作権侵害に当たると主張していました。


一部のAI企業は、こうした事態が発生した場合に備えて補償条項を設けています。しかし、これらの条項には例外規定が含まれている場合が多く、例えばOpenAIの条項は法人顧客にのみ適用され、個人ユーザーには適用されません。
「成果物には、マーケティングやブランディングに利用される資産(ゲームのキャラクターなど)が含まれる可能性があり、商標権リスクが生じます」と彼は述べた。「あるいは、氏名、肖像権、肖像権のリスクも生じ得ます。」
世界モデルへの関心の高まりは、この状況をさらに複雑化させる可能性があります。OpenAIがSoraをその一つと位置づけている世界モデルの応用例の一つは、本質的にリアルタイムでビデオゲームを生成することです。これらの「合成」ゲームが、モデルの学習に使用されたコンテンツに類似している場合、法的に問題となる可能性があります。
