「アベンジャーズ」のジョー・ルッソ監督と同様に、私も完全に AI で生成された映画やテレビ番組が私たちの生きている間に実現可能になると確信しつつあります。
ここ数ヶ月、OpenAIの超リアルな音声合成エンジンをはじめとする数々のAI関連技術の発表は、この大胆な新境地を垣間見せてくれました。しかし、Metaの本日の発表は、AI生成コンテンツの未来を特に鮮明に描き出しました ― 少なくとも私にとっては。
今朝、Metaは画像生成ツール「Emu」の進化版である「Emu Video」を発表しました。キャプション(例:「草の茂った丘を走る犬」)、画像、または写真と説明文を入力すると、Emu Videoは4秒間のアニメーションクリップを生成します。
Emu Videoのクリップは、本日発表された補完的なAIモデル「Emu Edit」を使って編集できます。ユーザーは、Emu Editに加えたい変更内容を自然言語で説明できます(例:「同じクリップをスローモーションで」)。そして、新しく生成されたビデオに反映された変更内容を確認できます。
動画生成技術自体は目新しいものではありません。MetaやGoogleも既に実験を行っており、Runwayのようなスタートアップ企業も既に動画生成技術を活用したビジネスを構築しています。
しかし、Emu Video の 512×512、16 フレーム/秒のクリップは、忠実度の点で私がこれまで見た中で最高のものの 1 つであり、訓練されていない私の目には本物と区別がつかないほどです。

ええ、少なくとも一部はそうです。Emu Videoは、フォトリアリズムから逸脱した、シンプルでほとんど静止したシーン(滝や街のスカイラインのタイムラプスなど)のアニメーションで最も成功しているようです。つまり、キュビズム、アニメ、「切り絵」、スチームパンクといったスタイルです。夜明けのエッフェル塔を「絵画のように」映し出したクリップは、セーヌ川に映る塔を映し出していて、American Greetingsで見かけるようなeカードを連想させました。
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日

しかし、Emu Videoの最高傑作でさえ、AIが生み出す奇妙な要素が紛れ込んでいる。奇妙な物理法則(例えば、地面と平行に動くスケートボード)や奇妙な付属物(足の指が後ろに丸まり、脚が互いに溶け合うなど)などだ。また、前述のエッフェル塔のクリップで頭上を飛ぶ鳥のように、物体が視界に現れたり消えたりするのにも、さほど論理的な要素はない。
Emu Videoの作品(少なくともMetaが厳選した作品)を長時間閲覧した後、もう一つ明らかな特徴に気づきました。それは、クリップ内の被写体が…まあ、あまり何もしていないということです。私の知る限り、Emu Videoは動詞をうまく捉えていないように見えます。おそらく、モデルの基盤となるアーキテクチャの限界なのでしょう。

例えば、Emu Videoのクリップに登場する可愛い擬人化されたアライグマはギターを持っていますが、ギターをかき鳴らすことはありません。たとえクリップのキャプションに「かき鳴らす」という言葉が含まれていたとしてもです。また、2頭のユニコーンはチェスを「プレイ」しますが、それはチェス盤の前で駒を動かさずに好奇心旺盛に座っているという程度です。

明らかに、まだやるべきことはある。とはいえ、Emu VideoのもっとシンプルなBロールは、今の映画やテレビ番組にあってもおかしくないと思う。そして、これがもたらす倫理的な影響は、正直言って恐ろしい。

ディープフェイクのリスクはさておき、Emu VideoのようなAIが近似的に生成できるようなシーンを制作することで生計を立てているアニメーターやアーティストのことが心配です。Metaやその生成AIのライバルたちは、MetaのCEOマーク・ザッカーバーグ氏によるとFacebookやInstagramに統合される予定(MetaのAI生成ステッカーよりも優れた有害性フィルターが備わっていることを期待しています)のEmu Videoは、人間のアーティストに取って代わるのではなく、むしろ補完するものだと主張するでしょう。しかし、それは楽観的、あるいは不誠実な見方だと私は思います。特に金銭が絡む場合はなおさらです。
Netflixは今年初め、3分間の短編アニメにAI生成の背景画像を使用しました。同社はこの技術がアニメ業界の人手不足の解消に役立つと主張していましたが、低賃金と過酷な労働条件がアニメ制作者を仕事から遠ざけていることについては都合よく言及していませんでした。
同様の論争として、マーベルの「シークレット・インベージョン」のエンドロールシーンを制作したスタジオは、エンドロールのアートワークの大部分をAI、主にテキスト画像変換ツール「Midjourney」を用いて生成したことを認めました。シリーズディレクターのアリ・セリムは、AIの使用は番組のパラノイア的なテーマに合致すると主張しましたが、アーティストコミュニティとファンの大部分は激しく反対しました。

俳優たちも解雇の危機に瀕しているかもしれません。最近のSAG-AFTRAストライキにおける主要な争点の一つは、AIを用いたデジタル肖像画の作成でした。スタジオは最終的に、AIが生成した肖像画に対して俳優に報酬を支払うことに同意しました。しかし、技術の進歩に伴い、再考する可能性はあるでしょうか?私はその可能性は高いと考えています。
(この記事の公開後、Metaの広報担当者はTechCrunchへのメールで、Emuは「ライセンスを受けたパートナーからのデータ」に基づいてトレーニングされていると語った。)

アーティストがトレーニングを「オプトアウト」したり、AI生成作品への参加料を受け取ったりできるようにする業界全体の標準策定に向けた動きは、これまで散発的に行われてきました。しかし、Emu Videoの例を見れば、この技術は(よくあることですが)まもなく倫理をはるかに超えるレベルに達するでしょう。もしかしたら、すでにそうなっているのかもしれません。
カイル・ウィガーズは2025年6月までTechCrunchのAIエディターを務めていました。VentureBeatやDigital Trendsに加え、Android Police、Android Authority、Droid-Life、XDA-Developersといった様々なガジェットブログにも記事を寄稿しています。音楽療法士のパートナーとマンハッタンに在住。
バイオを見る