Google は画像生成 AI に関しては最高の実績を持っていません。
2月、GoogleのAI搭載チャットボット「Gemini」に組み込まれた画像生成器が、人物に関するプロンプトに性別や人種の多様性をランダムに挿入し、人種的に多様なナチスの画像など、不快な不正確な情報を生み出していたことが判明した。
Googleは、このジェネレーターを撤回し、改良を重ねて最終的に再リリースすることを約束しました。その復活を待つ間、同社はVertex AI開発プラットフォーム内に、強化された画像生成ツール「Imagen 2」をリリースしました。ただし、このツールは明らかにエンタープライズ向けとなっています。

Imagen 2は、実際にはモデルファミリーであり、2023年5月のGoogle I/Oカンファレンスでプレビューされた後、12月にリリースされました。OpenAIのDALL-EやMidjourneyのように、テキストプロンプトに基づいて画像を作成・編集できます。企業関係者にとって興味深いのは、Imagen 2が複数の言語でテキスト、エンブレム、ロゴをレンダリングし、オプションで既存の画像にそれらの要素を重ね合わせることができることです。例えば、名刺、アパレル、製品などに重ね合わせることができます。
Imagen 2 による画像編集機能は、プレビュー版のリリース後、Vertex AI で一般提供を開始しました。新機能として、インペインティングとアウトペインティングが追加されました。インペインティングとアウトペインティングは、DALL-E などの他の人気画像生成ツールでも以前から提供されている機能で、画像の不要な部分を削除したり、新しいコンポーネントを追加したり、画像の境界を拡張して視野を広げたりすることができます。
しかし、Imagen 2 アップグレードの真髄は、Google が「テキストからライブ画像へ」と呼んでいるものです。
Imagen 2は、Runway、Pika、Irreverent LabsといったAI搭載の動画生成ツールと同様に、テキストプロンプトから4秒間の短い動画を作成できるようになりました。Imagen 2の企業向け機能に忠実に、Googleはライブ画像をマーケティング担当者やクリエイター向けのツールとして売り込んでいます。例えば、自然、食べ物、動物といったImagen 2が特に得意とするテーマを扱った広告用のGIF生成ツールなどです。
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日
Googleによると、ライブ画像は「様々なカメラアングルと動き」を捉えながら、「シーケンス全体を通して一貫性を保つ」ことができるとのことだ。しかし、現時点では解像度が360ピクセル×640ピクセルと低い。Googleは将来的に改善すると約束している。
ディープフェイク作成の可能性に関する懸念を和らげるため(少なくとも和らげようと試みるため)、GoogleはImagen 2にGoogle DeepMindが開発したSynthIDという手法を採用し、ライブ画像に目に見えない暗号化透かしを適用すると発表しました。もちろん、圧縮、フィルター、色調調整などの編集に対して耐性があるとGoogleが主張するこれらの透かしを検出するには、Googleが提供するツールが必要であり、これはサードパーティには提供されていません。
そして、生成メディアをめぐる新たな論争を避けたいのは当然のことながら、Googleはライブ画像生成は「安全のためにフィルタリングされる」と強調している。広報担当者はTechCrunchへのメールで次のように述べた。「 Vertex AIのImagen 2モデルでは、Geminiアプリのような問題は発生していません。引き続き広範囲にわたるテストを実施し、お客様との連携を強化していきます。」

しかし、Google の透かし技術、バイアス緩和、フィルターが主張するほど効果的であると仮定した場合、ライブ画像は既存のビデオ生成ツールと競合できるのでしょうか?
あまり。
Runwayは18秒のクリップをはるかに高解像度で生成できます。Stability AIのビデオクリップツール「Stable Video Diffusion」は、フレームレートの面でより高度なカスタマイズ性を備えています。そして、OpenAIのSora(まだ商用化はされていませんが)は、そのフォトリアリズムの実現で競合を圧倒する勢いを見せています。
では、ライブ映像の本当の技術的利点とは何でしょうか?よく分かりません。それに、あまり厳しい言い方をしているつもりもありません。
結局のところ、GoogleはImagen VideoやPhenakiといった、実に素晴らしい動画生成技術を開発しています。Phenakiは、Googleのテキスト動画における興味深い実験の一つで、長くて詳細なプロンプトを2分以上の「映画」に変換します。ただし、動画は低解像度、低フレームレートで、まとまりがないという欠点があります。
生成AI革命がGoogle CEOのサンダー・ピチャイ氏を不意打ちし、同社が依然として競合他社との競争に苦戦しているという最近の報道を踏まえると、ライブイメージのような製品が後塵を拝しているように感じられるのも無理はない。しかし、それでもやはり残念だ。Googleの秘密兵器工場には、もっと素晴らしい製品が潜んでいる、あるいは潜んでいたのではないかという気がしてならない。
Imagenのようなモデルは、通常、公開サイトやウェブ上のデータセットから得られる膨大な数の例を用いて学習されます。多くの生成AIベンダーは、学習データを競争上の優位性と捉え、学習データやそれに関連する情報を秘密にしています。しかし、学習データの詳細は知的財産関連の訴訟の対象となる可能性があり、これもまた、情報を多く開示することへの阻害要因となっています。
生成 AI モデルに関する発表の際にはいつもそうしているように、私は更新された Imagen 2 のトレーニングに使用されたデータについて、また、作品がモデルのトレーニング プロセスに巻き込まれた可能性のあるクリエイターが将来のある時点でオプトアウトできるかどうかについて質問しました。
Googleは、同社のモデルは「主に」公開ウェブデータ、つまり「ブログ投稿、メディアのトランスクリプト、公開フォーラム」から抽出したデータでトレーニングされているとだけ説明しました。具体的にどのようなブログ、トランスクリプト、フォーラムなのかは、誰にも分かりません。
広報担当者は、Googleのウェブパブリッシャーコントロール機能について言及した。このコントロールにより、ウェブマスターはGoogleが写真やアートワークなどのデータをスクレイピングするのを防ぐことができる。しかし、Googleはオプトアウトツールのリリースや、クリエイターの(知らないうちに)貢献に対する報酬の支払いについては明言しなかった。これは、OpenAI、Stability AI、Adobeなど多くの競合他社が既に実施している措置だ。
論争や技術的な問題、あるいはその他予期せぬ大きな障害がない限り、テキストからライブ画像への変換機能はいずれGAに導入されるでしょう。しかし、現状のライブ画像機能に関して、Googleは基本的に「自己責任でご利用ください」と言っているようなものです。