Google DeepMindがSoraに対抗する新しいビデオモデルを発表

Cemubo vgnpne 0

Vision

Google の主力 AI 研究機関である Google DeepMind は、ビデオ生成ゲームで OpenAI に勝ちたいと考えている。そして、少なくともしばらくはそうなるかもしれない。

月曜日、DeepMindは次世代動画生成AI「Veo 2」を発表しました。これはGoogleのポートフォリオ全体でますます多くの製品に搭載されているVeoの後継機です。Veo 2は、最大4K（4096 x 2160ピクセル）の解像度で、2分以上の動画クリップを作成できます。

注目すべきは、これは OpenAI の Sora が達成できる解像度の 4 倍、持続時間の 6 倍以上だということです。

確かに、今のところは理論上の優位性に過ぎません。Googleの実験的な動画作成ツール「VideoFX」（現在Veo 2が独占的に提供）では、動画の解像度は720p、長さは8秒に制限されています。（Soraは最大1080p、長さ20秒のクリップを作成できます。）

Google ビデオFX — VideoFXでVeo 2を使用。**画像クレジット:** Google

VideoFX はまだ順番待ちリストに入っているが、Google は今週中にアクセスできるユーザー数を増やすとしている。

DeepMindの製品担当副社長、イーライ・コリンズ氏もTechCrunchに対し、「モデルが大規模に使用できるようになると」GoogleはVeo 2を同社のVertex AI開発者プラットフォームを通じて提供すると語った。

「今後数か月間、ユーザーからのフィードバックに基づいて改良を続け、Veo 2 の最新機能を Google エコシステム全体の魅力的なユースケースに統合することを目指します。来年にはさらに多くのアップデートを公開する予定です」とコリンズ氏は述べた。

テッククランチイベント

サンフランシスコ | 2025年10月27日～29日

より制御可能

Veo と同様に、Veo 2 はテキストプロンプト (「高速道路を走る車」など) またはテキストと参照画像を指定してビデオを生成できます。

では、Veo 2の新機能は何でしょうか？DeepMindによると、このモデルは様々なスタイルのクリップを生成でき、物理特性とカメラ制御の「理解」が向上し、「より鮮明な」映像を生成できるとのことです。

DeepMindが言うところの「より鮮明」とは、クリップ内のテクスチャや画像がより鮮明になり、特に動きの多いシーンで顕著です。カメラコントロールの改良点としては、Veo 2が生成する動画内で仮想「カメラ」をより正確に配置できるようになり、カメラを動かして様々な角度から物体や人物を捉えられるようになりました。

DeepMindはまた、Veo 2は動き、流体力学（マグカップにコーヒーを注ぐなど）、光の特性（影や反射など）をよりリアルにモデル化できると主張しています。DeepMindによると、これには様々なレンズや映画のような効果、そして「ニュアンスのある」人間の表情も含まれます。

グーグルヴェオ 2 — Google Veo 2 のサンプル。クリップをGIFに変換する際、圧縮アーティファクトが発生していることに注意してください。**画像クレジット:** Google

DeepMindは先週、Veo 2から厳選したサンプル動画をTechCrunchに公開しました。AI生成の動画としては非常に良く、むしろ非常に優れていると言えるでしょう。Veo 2は屈折やメープルシロップのような扱いにくい液体の表現を巧みに捉え、ピクサー風のアニメーションを再現する能力も備えているようです。

しかし、DeepMind は、モデルが余分な指や「予期しない物体」などの要素を幻覚する可能性は低いと主張しているにもかかわらず、Veo 2 は不気味の谷を完全には克服できていない。

この漫画の犬のような生き物の生気のない目に注目してください。

そして、この映像に映る奇妙に滑りやすい道路、そして背景にいる歩行者が互いに溶け合っている様子、そして物理的に不可能なファサードを持つ建物：

コリンズ氏は、まだやるべきことがあると認めた。

「一貫性と一貫性は成長の余地がある」と彼は述べた。「Veoは数分間であればプロンプトに忠実に従うことができますが、複雑なプロンプトを長時間にわたって忠実に従うことはできません。同様に、キャラクターの一貫性も課題となる可能性があります。精巧なディテールや高速で複雑なモーションの生成、そしてリアリズムの限界を押し広げ続けるという点でも、改善の余地があります。」

ディープマインドはアーティストやプロデューサーと協力し、ビデオ生成モデルとツールの改良を続けているとコリンズ氏は付け加えた。

「Veoの開発当初から、ドナルド・グローバー、ザ・ウィークエンド、d4vdといったクリエイターの方々と協力し、彼らのクリエイティブプロセスと、テクノロジーがどのように彼らのビジョンを実現するのに役立てられるかを深く理解しようと努めてきました」とコリンズ氏は述べた。「Veo 1でクリエイターの方々と築いた経験は、Veo 2の開発にも活かされています。信頼できるテスターやクリエイターの方々と協力し、この新しいモデルに関するフィードバックを得られることを楽しみにしています。」

安全とトレーニング

Veo 2は大量のビデオで学習しました。AIモデルは一般的にこのように動作します。つまり、何らかの形式のデータの例を次々と提供することで、モデルはデータ内のパターンを拾い上げ、新しいデータを生成します。

DeepMindはVeo 2をトレーニングするために動画をどこから入手したかは明言していないが、YouTubeがソースとして考えられる。YouTubeはGoogleが所有しており、DeepMindは以前TechCrunchに対し、VeoのようなGoogleモデルはYouTubeコンテンツでトレーニングされている「可能性がある」と語っていた。

「Veoは高品質な動画と説明文の組み合わせで訓練されています」とコリンズ氏は述べた。「動画と説明文の組み合わせとは、動画とその動画内で何が起こっているかを説明するものです。」

DeepMindはGoogleを通じて、ウェブマスターがラボのボットによるウェブサイトからのトレーニングデータの抽出をブロックできるツールを提供しているものの、クリエイターが既存のトレーニングセットから作品を削除できる仕組みは提供していない。ラボとその親会社は、公開データを用いたトレーニングモデルはフェアユースであると主張しており、DeepMindはデータ所有者に許可を求める義務はないと考えている。

すべてのクリエイターが同意しているわけではない。特に、今後数年間で数万もの映画・テレビ業界の仕事がAIによって破壊される可能性があるという研究結果を踏まえるとなおさらだ。人気AIアートアプリ「Midjourney」を開発したスタートアップ企業を含む複数のAI企業が、アーティストの同意なしにコンテンツを学習させることで権利を侵害したとして訴訟の標的となっている。

「私たちは、クリエイターやパートナーの皆様と協力し、共通の目標を達成することに尽力しています」とコリンズ氏は述べています。「私たちは、クリエイティブコミュニティや業界全体の方々と協力を続け、VideoFXのユーザーの皆様を含む皆様からの洞察を収集し、フィードバックに耳を傾けていきます。」

現在の生成モデルは、学習時の挙動の特性上、学習データのミラーコピーを生成する「逆流」などの特定のリスクを伴います。DeepMindの解決策は、暴力的、グラフィック、不適切なコンテンツを含むプロンプトレベルのフィルターです。

ディープフェイクのリスクを軽減するため、DeepMindは独自の透かし技術「SynthID」を使用し、Veo 2が生成するフレームに目に見えないマーカーを埋め込むと発表しました。しかし、他の透かし技術と同様に、SynthIDも完璧なものではありません。

Imagenのアップグレード

Google DeepMind は今朝、Veo 2 に加え、商用画像生成モデルである Imagen 3 へのアップグレードを発表しました。

Googleの画像生成ツール「ImageFX」のユーザー向けに、新バージョンのImagen 3が月曜日から提供開始となる。DeepMindによると、このツールはフォトリアリズム、印象派、アニメといったスタイルの「より明るく、より構図の整った」画像や写真を作成できるという。

「このアップグレード（Imagen 3への）では、プロンプトにさらに忠実に従い、より豊かな詳細とテクスチャをレンダリングします」とDeepMindはTechCrunchに提供されたブログ投稿に書いている。

モデルと同時に、ImageFXのUIアップデートも展開されます。ユーザーがプロンプトを入力すると、プロンプト内のキーワードが「チップレット」となり、関連語の候補がドロップダウンメニューに表示されるようになります。ユーザーはチップレットを使って入力内容を繰り返し確認したり、プロンプトの下に自動生成された一連の説明から選択したりできます。

Posted by Cemubo