GoogleはMetaのビデオ生成AIにImagen Videoという独自のAIで対抗する

GoogleはMetaのビデオ生成AIにImagen Videoという独自のAIで対抗する

MetaのMake-A-Videoに負けまいと、Googleは本日、テキストプロンプト(例:「テディベアがお皿を洗っている」)を入力すると動画クリップを生成できるAIシステム「Imagen Video」の開発状況について詳細を明らかにした。システムが生成するループ動画には、アーティファクトやノイズが混入する傾向があるなど、結果は完璧ではないものの、GoogleはImagen Videoが「高度な制御性」と世界に関する知識を備え、様々な芸術的スタイルの映像を生成できるシステムへの一歩であると主張している。

同僚のデヴィン・コールドウェイがMake-A-Videoに関する記事で指摘したように、テキストを動画に変換するシステムは目新しいものではありません。今年初め、清華大学と北京人工知能研究院の研究者グループが、テキストを比較的忠実度の高い短い動画に変換できる「CogVideo」を発表しました。しかし、「Imagen Video」は従来の最先端技術を大きく飛躍させ、既存のシステムでは理解が難しいキャプションをアニメーション化する能力を示しています。

「これは間違いなく改善です」と、アルバータ大学でAIと機械学習を研究するマシュー・ガズディアル助教授は、TechCrunchへのメールで語った。「動画の例を見ればわかるように、コミュニケーションチームが最適な出力を選択しているにもかかわらず、奇妙なぼやけや不自然な部分が残っています。ですから、これがすぐにアニメーションやテレビ番組に直接使用されることはまずないでしょう。しかし、これ、あるいはそれに似た技術をツールに組み込むことで、いくつかの作業をスピードアップできる可能性は十分にあります。」

Google 画像動画
画像クレジット: Google
Google 画像動画
画像クレジット: Google

Imagen Videoは、OpenAIのDALL-E 2やStable Diffusionに匹敵する画像生成システムであるGoogleのImagenを基盤としています。Imagenはいわゆる「拡散」モデルであり、既存の多数のデータサンプルを「破壊」および「回復」する方法を学習することで、新しいデータ(例:動画)を生成します。既存のサンプルを入力するにつれて、モデルは以前に破壊したデータを回復して新しい作品を作成する能力が向上します。

Google 画像動画
画像クレジット: Google

Imagen Videoを開発するGoogleの研究チームが論文で説明しているように、このシステムはテキスト記述を受け取り、24×48ピクセルの解像度で16フレーム、毎秒3フレームの動画を生成します。その後、システムはアップスケールして追加のフレームを「予測」し、最終的に720p(1280×768)で128フレーム、毎秒24フレームの動画を生成します。

Google 画像動画
画像クレジット: Google
Google 画像動画
画像クレジット: Google

Googleによると、Imagen Videoは1,400万件の動画とテキストのペア、6,000万件の画像とテキストのペア、そして公開されているLAION-400M画像とテキストのデータセットを用いて学習され、幅広い美的感覚への汎用化を実現したという。(偶然ではないが、LAIONの一部はStable Diffusionの学習にも使用された。)実験では、Imagen Videoがゴッホの絵画や水彩画のようなスタイルの動画を作成できることがわかった。さらに印象的なのは、Imagen Videoが奥行きと3次元性を理解し、ドローンによるフライスルーのように、物体を歪ませることなく回転しながら様々な角度から撮影する動画を作成できることを実証したという。

現在利用可能な画像生成システムを大幅に改善し、Imagen Videoはテキストも適切にレンダリングできます。Stable DiffusionとDALL-E 2はどちらも「『Diffusion』のロゴ」といったプロンプトを判読可能な文字に変換するのに苦労しましたが、Imagen Videoは問題なくレンダリングしました ― 少なくとも論文から判断すると。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

Imagen Videoに限界がないというわけではありません。Make-A-Videoの場合と同様に、Imagen Videoから厳選されたクリップでさえ、Guzdial氏が示唆したように、部分的にジッターや歪みが生じ、オブジェクトが物理的に不自然で、あり得ない形で混ざり合っているのです。

「全体的に、テキストからビデオへの変換の問題はまだ解決されておらず、すぐにDALL-E 2やMidjourneyのような品質に到達する可能性は低い」とガズディアル氏は続けた。

これを改善するために、Imagen Video チームは、今日デビューしたもう 1 つの Google テキスト動画変換システムである Phenaki の研究者と力を合わせる予定です。Phenaki は、長くて詳細なプロンプトを 2 分以上の動画に変換できますが、画質は低くなります。

Phenakiのベールを少し剥がして、両チームのコラボレーションがどのような成果をもたらすのかを探ってみる価値はある。Imagen Videoが品質に重点を置くのに対し、Phenakiは一貫性と長さを重視している。このシステムは、段落単位のプロンプトを任意の長さの動画に変換することができる。バイクに乗る人のシーンから、未来都市の上空を飛ぶエイリアンの宇宙船まで、様々なシーンを映し出すことができる。Phenakiで生成された動画にはImagen Videoの動画と同様の不具合が見られるものの、長くてニュアンスに富んだテキストによる説明を、どれほど忠実に再現しているかは、私にとって驚くべきことだ。

たとえば、Phenaki に送られるプロンプトは次のとおりです。

未来都市の交通量が多い。エイリアンの宇宙船が未来都市に到着する。カメラはエイリアンの宇宙船内に入る。カメラは前進し、青い部屋にいる宇宙飛行士を映す。宇宙飛行士はキーボードを打っている。カメラは宇宙飛行士から離れる。宇宙飛行士はキーボードを離れ、左へ歩いていく。宇宙飛行士はキーボードを離れ、立ち去る。カメラは宇宙飛行士を越えてスクリーンを見る。宇宙飛行士の後ろのスクリーンには、海を泳ぐ魚が表示されている。青い魚に急激にズームインする。暗い海を泳ぐ青い魚を追いかける。カメラは水面を通して空を見上げる。未来都市の海と海岸線。未来的な高層ビルに急激にズームインする。カメラは多くの窓のうちの 1 つにズームインする。私たちは空のデスクが置かれたオフィス ルームにいる。オフィス デスクの上をライオンが走っている。カメラはオフィス内のライオンの顔にズームインする。オフィスルームにいる黒いスーツを着たライオンにズームアウト。スーツを着たライオンはカメラを見て微笑んでいる。カメラはゆっくりと高層ビルの外観にズームアウトする。近代的な都市の夕焼けをタイムラプス撮影した。

生成されたビデオは次のとおりです。

フェナキ
画像クレジット: Google

Imagen Videoに戻ると、研究者らは、システムの学習に使用されたデータに問題のあるコンテンツが含まれていたと指摘しており、Imagen Videoが暴力的な映像や性的に露骨な映像を生成してしまう可能性がある。Googleは、「これらの懸念が軽減されるまで」Imagen Videoのモデルやソースコードを公開しないとしており、Metaとは異なり、関心を登録するためのサインアップフォームは一切提供しない。 

カイル・ウィガーズは2025年6月までTechCrunchのAIエディターを務めていました。VentureBeatやDigital Trendsに加え、Android Police、Android Authority、Droid-Life、XDA-Developersといった様々なガジェットブログにも記事を寄稿しています。音楽療法士のパートナーとマンハッタンに在住。

バイオを見る