Colliderの最近のパネルインタビューで、「アベンジャーズ/エンドゲーム」などのマーベル映画の主力作品を手がけたジョー・ルッソ監督は、2年以内にAIが本格的な映画を制作できるようになると予測しました。これはかなり楽観的なタイムラインと言えるでしょう。しかし、その目標は着実に近づいています。
今週、AI画像生成ツール「Stable Diffusion」の開発に携わった、Googleの支援を受けるAIスタートアップ企業Runwayが、テキストプロンプトまたは既存の画像から動画を生成するモデル「Gen-2」をリリースした。(Gen-2は以前は限定公開で、順番待ちリストに登録されていた。)2月にリリースされたRunwayのGen-1モデルの後継となるGen-2は、商用利用可能なテキスト動画生成モデルとしては初のものとなる。
「商用利用可能」というのは重要な区別です。テキストから動画への変換は、画像とテキストに続く生成AIの論理的な次なるフロンティアであり、特にテクノロジー大手の間で大きな注目を集めています。過去1年間に、複数の企業がテキストから動画への変換モデルのデモを実施しました。しかし、これらのモデルはまだ研究段階にあり、限られたデータサイエンティストやエンジニア以外には利用できません。
もちろん、最初が必ずしも良いというわけではありません。
個人的な好奇心と読者の皆様への感謝の気持ちから、Gen-2でいくつかのプロンプトを実行し、このモデルで何ができて、何ができないのかを検証しました(Runwayは現在、約100秒の動画生成を無料で提供しています)。この狂気には大した方法論はありませんでしたが、プロの監督であろうとそうでない監督であろうと、映画館で(あるいは場合によってはラップトップで)見たいと思うであろう、様々な角度、ジャンル、スタイルを捉えようと試みました。
Gen-2のすぐに明らかになった限界の一つは、モデルが生成する4秒間の動画のフレームレートです。フレームレートは非常に低く、その差は歴然としており、まるでスライドショーのような動画が見られるほどです。

これが技術的な問題なのか、それともRunwayのコンピューティングコスト削減の試みなのかは不明です。いずれにせよ、ポストプロダクション作業を避けたい編集者にとって、Gen-2は最初からあまり魅力的ではないと言えるでしょう。
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日
フレームレートの問題以外にも、第2世代で生成されたクリップには、まるで昔のInstagramフィルターをかけたかのような、ある種の粒状感やぼやけが共通して見られる傾向があることに気づきました。また、(適切な言葉が見つからないのですが)「カメラ」が被写体の周りを回ったり、急にズームインしたりした際に、被写体の周囲にピクセル化が生じるなど、所々でアーティファクトも発生します。
多くの生成モデルと同様に、Gen-2は物理学や解剖学の面でも特に一貫性があるわけではない。まるでシュールレアリストが作り出したかのように、Gen-2で制作された動画では、人々の腕や脚が溶け合ったり離れたりし、物体は床に溶け込んで消え、その反射は歪んで見える。そして、プロンプトによっては、顔が人形のように見え、光沢があり感情のない目と、安っぽいプラスチックを思わせる青白い肌になることもある。

さらに問題なのは、コンテンツの問題です。第2世代はニュアンスの理解に苦労しているようで、プロンプト内の特定の説明に固執する一方で、他の説明を無視し、ランダムに反応しているように見えます。

私が試したプロンプトの一つ、「古いカメラで撮影した、水中のユートピアの映像。『ファウンド・フッテージ』風」という設定では、ユートピアそのものは生成されず、人知れずのサンゴ礁を一人称視点でスキューバダイビングしているような映像しか生成されませんでした。Gen-2は他のプロンプトでも苦戦し、「ゆっくりズーム」という指示があったにもかかわらずズームインショットを生成できず、一般的な宇宙飛行士の表情もうまく再現できませんでした。
問題は Gen-2 のトレーニング データ セットにあるのでしょうか? おそらくそうでしょう。
Gen-2は、Stable Diffusionと同様に拡散モデルです。つまり、ノイズのみで構成された初期画像から徐々にノイズを除去し、プロンプトに段階的に近づける方法を学習します。拡散モデルは数百万から数十億の例を用いて学習します。Gen-2のアーキテクチャを詳述した学術論文の中で、Runwayは、このモデルが2億4000万枚の画像と640万本の動画クリップからなる内部データセットを用いて学習されたと述べています。
サンプルの多様性が鍵となります。データセットに例えばアニメーションの映像があまり含まれていない場合、モデルは参照点が不足し、妥当な品質のアニメーションを生成できません。(もちろん、アニメーションは広範な分野であるため、データセットにアニメや手描きアニメーションのクリップが含まれていたとしても、モデルが必ずしもすべての種類のアニメーションにうまく一般化できるとは限りません。)

プラス面としては、Gen-2は表面的なバイアステストをクリアしています。DALL-E 2のような生成AIモデルは、社会的なバイアスを強化することが分かっており、「CEO」や「取締役」といった権威ある役職の画像を生成する際に、白人男性を描写することがほとんどです。しかし、Gen-2は、少なくとも私のテストでは、生成したコンテンツにおいてほんの少しだけ多様性に富んでいました。

「CEOが会議室に入ってくる動画」というプロンプトを入力すると、Gen-2は会議テーブルのようなものの周りに座っている男女(ただし、男性の方が女性より多い)の動画を生成した。一方、「医師がオフィスで働いている動画」というプロンプトの出力には、机の後ろに座るアジア系風の女性医師の姿が映し出された。
しかし、「看護師」という単語を含むプロンプトの結果は期待外れで、常に若い白人女性が表示されました。「ウェイター」というフレーズでも同様です。明らかに、改善の余地があります。
これらすべてから私が得た結論は、Gen-2はビデオワークフローにおいて真に役立つツールというより、むしろ目新しいものやおもちゃのようなものだということです。出力を編集して、より一貫性のあるものにすることはできるでしょうか?おそらくできるでしょう。しかし、ビデオによっては、そもそも映像を撮影するよりも多くの作業が必要になる可能性があります。
だからといって、この技術を軽視しているわけではありません。Runwayがテキストから動画への変換技術でテクノロジー大手に打ち勝ったことは、実に素晴らしいことです。そして、フォトリアリティーや高度なカスタマイズ性を必要としない用途で、Gen-2を活用するユーザーも出てくるでしょう。(RunwayのCEO、クリストバル・バレンズエラ氏は先日ブルームバーグに対し、Gen-2はアーティストやデザイナーの創作活動を支援するツールを提供する手段だと考えていると語りました。)

自分でも試してみました。Gen-2は確かに、アニメやクレイアニメなど、低フレームレートに適した様々なスタイルを理解できます。少し調整と編集作業を加えれば、いくつかのクリップを繋ぎ合わせて物語作品を作ることも不可能ではありません。

しかし、少なくとも今のところは、映画製作者、アニメーター、CGIアーティスト、そして倫理学者たちは安心できる。Runwayの技術が映画並みのクオリティの映像を生成できるようになるまでには、少なくとも数回の改良が必要になるだろう ― もしそれが実現するならの話だが。