GoogleはGeminiの人物生成機能を修正したと発表した

GoogleはGeminiの人物生成機能を修正したと発表した

2月、GoogleはAI搭載チャットボット「Gemini」の人物画像生成機能を一時停止した。これは、ユーザーから歴史的事実の不正確さを指摘されたためだ。例えば、「ローマ軍団」を描写するように指示すると、Geminiは時代錯誤的な人種的多様性に富んだ兵士の集団を描写し、「ズールー族の戦士」はステレオタイプな黒人として描写してしまうのだ。

GoogleのCEO、サンダー・ピチャイ氏は謝罪し、GoogleのAI研究部門DeepMindの共同創業者であるデミス・ハサビス氏は、修正は「非常に短期間で」、つまり数週間以内に提供される予定だと述べた。しかし実際には、それよりもはるかに長い時間がかかった(中には週120時間労働のGoogle社員もいたにもかかわらず!)。しかし、近日中に、Geminiは再び人物が映った写真を作成できるようになるだろう。

まあ…そうですね。

特定のユーザーのみ、具体的には Google の有料 Gemini プラン (Gemini Advanced、Business、または Enterprise) のいずれかに登録しているユーザーのみが、早期アクセスの英語のみのテストの一環として、Gemini の人物生成機能を再び利用できるようになります。

Google は、このテストが無料の Gemini 層や他の言語にいつ拡大されるかについては明らかにしなかった。

「Gemini Advancedは、ユーザーに最新機能への優先アクセスを提供します」とGoogleの広報担当者はTechCrunchに語った。「これにより、プレミアム会員の皆様に待望の機能をいち早く提供しながら、貴重なフィードバックを収集することができます。」

では、Googleは人物生成にどのような修正を実施したのだろうか?同社によると、Geminiに組み込まれた最新の画像生成モデルであるImagen 3には、Geminiが生成する人物画像をより「公平」にするための緩和策が含まれているという。例えば、TechCrunchに共有された技術論文によると、Imagen 3はAI生成のキャプションで訓練され、「訓練データ内の画像に関連付けられた概念の多様性と多様さを向上させる」ように設計されたという。また、モデルの訓練データは「安全性」の観点からフィルタリングされ、「公平性の問題を考慮して…レビュー」されたとGoogleは主張している。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

Imagen 3のトレーニングデータについて詳細を尋ねたが、広報担当者はモデルが「画像、テキスト、関連する注釈を含む大規模なデータセット」でトレーニングされたとだけ答えた。

「社内外のレッドチームによる徹底的なテストを実施し、継続的な改善を図るため独立した専門家と連携することで、望ましくない応答が発生する可能性を大幅に低減しました」と広報担当者は続けた。「人生成機能を再開する前に、厳密なテストを実施することに重点を置いています。」

画像3と宝石

少し良いニュースとしては、すべての Gemini ユーザーは 1 週間以内に Imagen 3 を入手できますが、プレミアム Gemini 層に加入していないユーザーは対象外となります。

Googleによると、Imagen 3は、前世代のImagen 2と比較して、テキストプロンプトをより正確に理解して画像に変換し、より「創造的で詳細」な処理を実現しているという。さらに、このモデルはアーティファクトやエラーが少なく、テキストレンダリングにおいてこれまでで最高のImagenモデルであるとGoogleは主張している。

Google 画像 3
GoogleのImagen 3からのサンプル。画像クレジット: Google

ディープフェイクへの懸念を和らげるため、Imagen 3はSynthIDを採用します。これは、DeepMindが開発した、AIで生成された様々なメディアに目に見えない暗号化透かしを適用する手法です。Googleは以前、Imagen 3がSynthIDを採用すると発表していたため、これはそれほど意外ではありません。しかし、GoogleがGeminiでの画像生成をPixel Studioなどの他の製品とどのように扱っているかという点の違いは、少し興味深い点です。

Google 画像 3
Imagen 3からの別のサンプル。画像クレジット: Google

Imagen 3と並行して、GoogleはGemini向けのGemsを展開しています。ただし、Gemini Advanced、Business、Enterpriseユーザーのみを対象としています。OpenAIのGPTと同様に、GemsはGeminiのカスタムバージョンであり、特定のトピック(例:ベジタリアン料理)の「専門家」として機能します。

Googleはブログ記事で、Gemsについて次のように説明しています。「Gemsを使えば、専門家チームを編成し、難しいプロジェクトをじっくり考えたり、今後のイベントのアイデアをブレインストーミングしたり、ソーシャルメディアの投稿に最適なキャプションを書いたりすることができます。また、Gemsは詳細な指示を記憶し、面倒な作業、繰り返し作業、あるいは難しい作業にかかる時間を節約できます。」

Gem を作成するには、ユーザーは指示を書いて名前を付け、作業を開始します。

Googleによると、Gemsはデスクトップとモバイルで150か国以上、「ほとんどの言語」で利用可能とのことです(ただし、Gemini Liveではまだサポートされていません)。リリース時点では、「学習コーチ」、「キャリアガイド」、「ブレインストーミング」、「コーディングパートナー」など、いくつかの例が用意されています。

ジェミニジェムズ
画像クレジット: Google

Googleに、OpenAIのGPTストアにあるGPTと同様に、ユーザーが他のユーザーのGemを公開・利用できるような仕組みの計画があるかどうか尋ねたところ、答えは基本的に「ノー」でした。

「現在、私たちは人々が創造性と生産性のためにGemsをどのように活用するかを把握することに注力しています」と広報担当者は述べた。「現時点ではこれ以上お伝えできることはありません。」

カイル・ウィガーズは2025年6月までTechCrunchのAIエディターを務めていました。VentureBeatやDigital Trendsに加え、Android Police、Android Authority、Droid-Life、XDA-Developersといった様々なガジェットブログにも記事を寄稿しています。音楽療法士のパートナーとマンハッタンに在住。

バイオを見る