AI生成ビデオへの本格的な挑戦、Google VeoがGoogle I/O 2024でデビュー

AI生成ビデオへの本格的な挑戦、Google VeoがGoogle I/O 2024でデビュー

Google は、テキスト プロンプトを与えると約 1 分間の 1080p ビデオ クリップを作成できる AI モデル Veo で、OpenAI の Sora を狙っています。 

火曜日にグーグルの開発者会議「I/O 2024」で発表されたVeoは、風景やタイムラプスのショットを含むさまざまなビジュアルや映画的なスタイルを撮影し、すでに生成された映像を編集および調整することができる。

「ストーリーボード作成や長めのシーン生成といった機能を検討し、Veoの実力を試しています」と、GoogleのAI研究開発ラボDeepMindの責任者であるデミス・ハサビス氏は、オンライン円卓会議で記者団に語った。「動画分野では驚異的な進歩を遂げています。」

ヴェオ
画像クレジット: Google

Veo は、4 月にプレビューされた Google のビデオ生成における予備的な商用化作業に基づいて構築されており、その作業では、ループするビデオ クリップを作成するために同社の画像生成モデルの Imagen 2 ファミリーが利用されていました。 

しかし、低解像度で数秒のビデオしか作成できなかった Imagen 2 ベースのツールとは異なり、Veo は、Sora だけでなく、Pika、Runway、Irreverent Labs などのスタートアップ企業のモデルなど、今日の主要なビデオ生成モデルと競合できるようです。

ブリーフィングで、ディープマインドでジェネレーティブメディアの研究を率いるダグラス・エック氏は、Veoの能力を示す厳選された例をいくつか見せてくれた。特に、賑やかなビーチを空から撮影した映像は、競合する動画モデルに対するVeoの優位性を示したとエック氏は語った。 

「ビーチにいるすべての遊泳者の細部を捉えるのは、画像生成モデルと動画生成モデルの両方にとって難しいことが分かりました。動く人物がこれほど多くいるからです」と彼は述べた。「よく見ると、波はかなり良い感じに見えます。そして、プロンプトワードの『賑やか』という感覚は、日光浴をする人々で溢れかえる活気あるビーチフロントの姿で、まさに捉えられていると言えるでしょう。」 

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

ヴェオ
画像クレジット: Google

Veoは大量の映像で学習しました。これは生成AIモデルの一般的な動作です。何らかの形式のデータを次々と入力することで、モデルはデータのパターンを拾い上げ、新しいデータ(Veoの場合は動画)を生成します。

Veoを訓練するための映像はどこから来たのだろうか?エック氏は具体的なことは明かさなかったが、一部はGoogle自身のYouTubeから入手した可能性があると認めた。 

「Google モデルは一部の YouTube コンテンツでトレーニングされる可能性がありますが、常に YouTube クリエイターとの契約に従って行われます」と彼は述べた。

「合意」という部分は 技術的には 正しいかもしれない。しかし、YouTubeのネットワーク効果を考えると、クリエイターが可能な限り幅広い視聴者にリーチしたいのであれば、Googleのルールに従う以外に選択肢がないのも事実だ。

ヴェオ
画像クレジット: Google

ニューヨーク・タイムズ紙が4月に報じたところによると、Googleは昨年、AIモデルの学習に活用できるデータを増やすため、利用規約を拡充したという。旧利用規約では、GoogleがYouTubeのデータを利用して動画プラットフォーム以外の製品を開発できるかどうかは明確ではなかった。しかし、新利用規約では規制が大幅に緩和され、明確になった。 

膨大なユーザーデータを活用して自社モデルのトレーニングを行っているテック大手は、Googleだけではありません。(Meta参照)しかし、倫理面ではGoogleが「ゴールドスタンダード」を設定しているというEck氏の主張は、一部のクリエイターを間違いなく失望させるでしょう。 

「この(トレーニングデータの)課題の解決策は、関係者全員を集めて次のステップを模索することで見つかるでしょう」と彼は述べた。「映画業界、音楽業界、そしてアーティスト自身といった関係者と共に、これらのステップを踏まない限り、迅速に行動することはできません。」

しかし、Googleはすでにドナルド・グローバー(別名チャイルディッシュ・ガンビーノ)と彼のクリエイティブエージェンシーであるギルガを含む、選ばれたクリエイターにVeoを提供している。(OpenAIがSoraを提供しているように、GoogleはVeoをクリエイターのためのツールとして位置付けている。)

エック氏は、Googleがウェブマスター向けに、Googleのボットによるウェブサイトからのトレーニングデータのスクレイピングを阻止するためのツールを提供していると指摘した。しかし、この設定はYouTubeには適用されない。また、Googleは一部のライバル企業とは異なり、スクレイピング後にクリエイターがトレーニングデータセットから自分の作品を削除できる仕組みを提供していない。

では、GoogleはVeoの逆流リスクを軽減するためにどのような対策を講じたのだろうか?Eck氏は、研究チームが暴力的および露骨なコンテンツ(ポルノは含まれない)に対するフィルターを実装し、DeepMindのSynthID技術を使用してVeoの動画をAI生成としてマークしていると述べる以外、回答を得られなかった。  

ヴェオ
画像クレジット: Google

「Veoモデルのような大規模なものについては、モデルの影響を理解するために緊密に連携できる少数の関係者に段階的にリリースし、その後でより大きなグループに展開することを重視するつもりだ」と氏は述べた。 

エック氏はこのモデルの技術的な詳細についてさらに詳しく語った。

エック氏は、Veoを「かなり制御可能」と表現しました。これは、モデルがカメラの動きやVFXを指示(「パン」「ズーム」「爆発」といった指示)からかなり正確に理解しているという意味です。また、Soraと同様に、Veoは流体力学や重力といった物理学をある程度理解しており、それが生成する動画のリアリティに貢献しています。 

Veoは、動画の特定領域を変更するマスク編集もサポートしており、Stability AIのStable Videoのような生成モデルのように、静止画から動画を生成することもできます。おそらく最も興味深いのは、一連のプロンプトでストーリーを伝えることで、Veoは1分を超えるような長めの動画を生成できることです。

ヴェオ
画像クレジット: Google

だからといって、Veoが完璧だと言っているわけではありません。今日の生成AIの限界を反映して、Veoの動画内のオブジェクトは、ほとんど説明も一貫性もなく消えたり現れたりします。また、Veoは物理法則をしばしば間違えます。例えば、車が不可解にも、あり得ないほど急に後退したりします。

そのため、Veoは当面の間、Google Labs(Googleの実験技術ポータル)の待機リストに残り、生成AIによる動画作成・編集のための新しいフロントエンド「VideoFX」に組み込まれることになる。Googleは、このモデルの改良に伴い、その機能の一部をYouTube Shortsなどのサービスに導入することを目指している。 

「これはまさに進行中の作品であり、実験的な要素が強いです。ここで成し遂げたことよりも、まだ成し遂げられていないことの方がはるかに多いです」とエック氏は語った。「しかし、これは映画製作の世界で本当に素晴らしいことを成し遂げるための、いわば素材のようなものだと思っています。」

AIニュースレターを始めます!6月5日から受信ボックスに配信を開始するには、こちらからご登録ください。

Google I/O 2024の詳細については、TechCrunchをご覧ください。