Google GeminiのAI画像モデルが「バナナ」のようにアップグレード

Google GeminiのAI画像モデルが「バナナ」のようにアップグレード

Googleは、ユーザーが写真編集をより細かく制御できるようにする新しいAI画像モデルでGeminiチャットボットをアップグレードしており、これはOpenAIの人気画像ツールに追いつき、ChatGPTからユーザーを引き込むためのステップだ。

「Gemini 2.5 Flash Image」と呼ばれるこのアップデートは、火曜日からGeminiアプリの全ユーザー、およびGemini API、Google AI Studio、Vertex AIプラットフォームを介した開発者向けに展開される。

Geminiの新しいAI画像モデルは、ユーザーからの自然言語によるリクエストに基づいて、顔や動物、その他のディテールの一貫性を保ちながら、より正確な画像編集を行うように設計されています。これは、多くの競合ツールが苦手とする点です。例えば、ChatGPTやxAIのGrokに写真に写っている人物のシャツの色を変更するように指示すると、顔が歪んだり、背景が変わってしまう可能性があります。

アスリートと犬を抱きしめる新しい合成写真で、アスリートと犬の 2 つの写真を表示するアニメーション GIF。
Gemini 2.5 Flash Imageのネイティブ画像エディタは、犬と人物の写真を、その類似性を保ちながら合成します。画像クレジット: Google

Googleの新しいツールはすでに注目を集めています。ここ数週間、ソーシャルメディアのユーザーたちは、クラウドソーシングによる評価プラットフォーム「LMArena」で公開された、優れたAI画像エディターを絶賛していました。このモデルは「nano-banana」という匿名の仮名でユーザーに公開されました。

Googleは、このモデルの開発に自社が関わっていると述べている(バナナ関連のヒントから既に明らかだったかもしれないが)。これは実際には、同社の主力製品であるGemini 2.5 Flash AIモデルに搭載されているネイティブ画像機能である。Googleによると、この画像モデルはLMArenaなどのベンチマークにおいて最先端技術である。

Googleは、新しいAI画像モデルがいくつかのベンチマークで最先端であると主張している。

「私たちは、ビジュアル品質と、モデルの指示に従う能力を真に向上させようとしています」と、Google DeepMindでビジュアル生成モデルのプロダクトリーダーを務めるニコール・ブリクトバ氏は、TechCrunchとのインタビューで語った。

「今回のアップデートにより、編集がよりシームレスになり、モデルの出力はどのような用途にも使用できるようになりました」とブリクトバ氏は語った。

AI画像モデルは、大手IT企業にとって重要な戦場となっている。OpenAIが3月にGPT-4oのネイティブ画像ジェネレーターをリリースした際、AIが生成したスタジオジブリのミームが爆発的に拡散し、ChatGPTの利用が急増した。OpenAIのCEO、サム・アルトマン氏によると、同社のGPUは「溶ける」ほどだったという。

OpenAIとGoogleに追いつくため、Metaは先週、スタートアップ企業MidjourneyからAI画像モデルのライセンスを取得すると発表しました。一方、a16zが支援するドイツのユニコーン企業Black Forest Labsは、FLUX AI画像モデルでベンチマークを席巻し続けています。

Geminiの優れたAI画像エディタは、GoogleがOpenAIとのユーザー格差を埋めるのに役立つかもしれません。ChatGPTは現在、週7億人以上のユーザーを記録しています。7月のGoogleの決算説明会で、このテクノロジー大手のCEO、サンダー・ピチャイは、Geminiの月間ユーザー数が4億5000万人であると明らかにしました。つまり、週あたりのユーザー数はさらに少ないということです。

ブリクトヴァ氏によると、Googleはこの画像モデルを、ユーザーが自宅や庭のプロジェクトを視覚化するといった消費者のユースケースを特に念頭に置いて設計したという。このモデルはより高度な「世界知識」を備えており、複数の参照情報を単一のプロンプトに組み合わせることができる。例えば、ソファの画像、リビングルームの写真、カラーパレットを1つのまとまりのあるレンダリング画像に統合することができる。

何もないリビングルームの画像を表示するアニメーションGIF。画面には「ペンキを追加」などのプロンプトが表示され、部屋のペンキの色が変わります。「ソファを追加」と指示すると、ソファが追加されます。デモでは、AIプロンプトが画像にリアルタイムで変化を与える様子が見られます。
Gemini 2.5のFlash Imageでは、ユーザーはAI画像モデルと「マルチターン」の会話を行うことができます。画像クレジット: Google

Geminiの新しいAI画像ジェネレーターは、ユーザーがリアルな画像を簡単に作成・編集できるようにしますが、ユーザーが作成できる画像を制限する安全対策が講じられています。Googleは過去にAI画像ジェネレーターの安全対策に苦慮してきました。ある時点で、Geminiが歴史的に不正確な人物画像を生成していたことについて謝罪し、AI画像ジェネレーターの機能を完全に元に戻しました。

現在、Google はより良いバランスを実現できたと感じています。

「ユーザーにクリエイティブなコントロールを与え、モデルから望むものを得られるようにしたいのです」とブリクトヴァ氏は述べた。「とはいえ、何でもありというわけではありません。」

Googleの利用規約にある生成AIに関するセクションでは、ユーザーが「合意のない性的な画像」を生成することを禁止しています。しかし、Grokには同様の安全策が存在しないようです。Grokは、テイラー・スウィフトなどの有名人に似たAI生成の性的な画像をユーザーが作成することを許可していました。

ディープフェイク画像の増加により、ユーザーがオンライン上で何が本物かを見分けるのが困難になっている問題に対処するため、ブリクトバ氏によると、GoogleはAI生成画像に視覚的な透かしを適用し、メタデータにも識別子を付加しているという。しかし、ソーシャルメディアで画像をスクロールしているユーザーは、そのような識別子を探さないかもしれない。

マックスウェル・ゼフは、TechCrunchのAI専門シニアレポーターです。以前はGizmodo、Bloomberg、MSNBCでAIの台頭やシリコンバレーの銀行危機などを取材してきました。サンフランシスコを拠点としています。取材以外の時間は、ハイキング、サイクリング、ベイエリアのグルメ巡りを楽しんでいます。

Maxwell からの連絡を確認したり連絡を受けたりする場合は、[email protected]にメールを送信するか、Signal の mzeff.88 に暗号化されたメッセージを送信してください。

バイオを見る