「恥ずべき、そして間違っている」:グーグルは画像生成AIの制御を失ったことを認めた

「恥ずべき、そして間違っている」:グーグルは画像生成AIの制御を失ったことを認めた

Googleは今週、またしても恥ずべきAIの失態について謝罪(あるいは謝罪にかなり近づいた)した。画像生成モデルが、歴史的背景を茶番劇的に無視して写真に多様性を注入したのだ。根本的な問題は十分に理解できるものの、Googleはモデルが「過敏になった」せいだと非難している。しかし、モデルは勝手に作られたわけではない。

問題の AI システムは、同社の主力会話型 AI プラットフォームである Gemini であり、要求に応じて Imagen 2 モデルのバージョンを呼び出して画像を作成します。

しかし最近、特定の歴史的状況や人物のイメージを生成するようAIに指示したところ、笑ってしまうような結果が出たという。例えば、白人奴隷所有者として知られている建国の父たちが、有色人種を含む多文化集団として表現されたのだ。

この恥ずかしく、しかも容易に再現可能な問題は、オンラインのコメンテーターによってたちまち風刺の対象となった。そして予想通り、多様性、公平性、そしてインクルージョン(現在、評判の面で局所的に低迷している)に関する継続的な議論に巻き込まれ、既にリベラルなテック業界に「目覚めたマインド」ウイルスがさらに浸透している証拠として、評論家たちに取り上げられた。

画像クレジット: Twitter ユーザーの Patrick Ganley が作成した画像。

「DEI(情報技術革新)が狂ってる!」と、明らかに不安げな市民たちが叫んだ。「これがバイデンのアメリカだ!Googleは「イデオロギーのエコーチェンバー」であり、左派の足手まといだ!(言うまでもなく、左派もこの奇妙な現象に相当動揺していた。)

しかし、この技術に詳しい人なら誰でもわかるように、また Google が本日行ったかなり卑屈な謝罪に近い投稿で説明しているように、この問題はトレーニング データにおける体系的な偏りに対する極めて合理的な回避策の結果でした。

例えば、マーケティングキャンペーンを作成するためにGeminiを使いたいとします。そして、「公園で犬を散歩させている人」の写真を10枚生成するように指示します。人、犬、公園の種類を指定しないため、生成モデルはディーラーの選択に委ねられます。つまり、生成モデルは最も馴染みのあるものを出力します。そして多くの場合、それは現実からではなく、様々なバイアスが組み込まれている可能性のあるトレーニングデータから生成されたものです。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

モデルが取り込んだ数千枚の関連画像の中で、どのような人物、そして犬や公園が最も多く写っているのでしょうか? 実は、これらの画像コレクション(ストック画像、著作権フリー写真など)の多くでは白人が過剰に代表されており、その結果、モデルは多くの場合、指定しない限り白人をデフォルトで認識してしまいます。

これはトレーニングデータの副産物に過ぎませんが、Googleが指摘しているように、「ユーザーは世界中から来ているので、誰にとっても問題なく機能するようにしたいと考えています。サッカー選手や犬の散歩をしている人の写真をリクエストした場合、さまざまな人物の画像が返ってくることを期待するでしょう。特定の民族(またはその他の特徴)を持つ人物の画像だけを受け取りたいとは思わないでしょう。」

最近解雇され、箱を持っている人々のグループのイラスト。
こんな画像を頼んだらどうなるでしょうか?もし全部同じタイプの人だったら?まずい結果になりますよ!画像クレジット: Getty Images / victorikart

郊外の公園でゴールデンレトリバーを散歩させている白人男性の写真を撮られるのは問題ありません。しかし、10枚の写真を求めたら、郊外の公園でゴールデンレトリバーを散歩させているのはすべて白人男性だったとしたらどうでしょう?しかも、あなたが住んでいるのはモロッコで、人、犬、公園のすべてがそれぞれ異なる様子です。これは決して望ましい結果ではありません。誰かが特徴を指定しない場合、モデルはトレーニングデータによってバイアスがかかっている可能性はあっても、均質性ではなく多様性を優先するべきです。

これはあらゆる種類の生成メディアに共通する問題であり、簡単な解決策はありません。しかし、特に一般的であったり、センシティブであったり、あるいはその両方である場合、Google、OpenAI、Anthropicなどの企業は、モデルに追加の指示を目に見えない形で組み込んでいます。

こうした暗黙の指示がどれほど当たり前のことか、いくら強調しても足りないほどです。LLMエコシステム全体は、暗黙の指示、いわゆるシステムプロンプトに基づいて構築されています。「簡潔に」「悪口は言わないで」といったガイドラインが、会話の前にモデルに与えられます。ジョークをお願いしても、人種差別的なジョークは返ってきません。なぜなら、モデルは何千もの人種差別的なジョークを吸収しているにもかかわらず、私たちのほとんどと同じように、人種差別的なジョークを言わないように訓練されているからです。これは秘密の議題ではなく(ただし、透明性を高める必要があるかもしれません)、インフラなのです。

Googleのモデルの誤りは、歴史的背景が重要な状況において暗黙の指示を提供できなかった点にあります。つまり、「公園で犬の散歩をしている人物」のようなプロンプトは、「人物の性別と民族はランダムである」といった暗黙の補足によって改善されますが、「アメリカ合衆国建国の父たちが憲法に署名している」というプロンプトは、同じ補足によって改善されることは全くありません。

Google SVPのPrabhakar Raghavan氏は次のように述べています。

まず、Gemini が幅広い人物情報を表示するように調整した際に、明らかに範囲を表示すべきでないケースを考慮に入れていなかったことが挙げられます。そして第二に、時間の経過とともに、モデルは私たちの意図をはるかに超えて慎重になり、特定の質問に全く答えなくなってしまいました。つまり、ごく普通の質問をセンシティブな質問と誤って解釈してしまったのです。

これら 2 つの要因により、モデルは場合によっては過剰に補正し、場合によっては過度に保守的になり、恥ずかしい間違った画像が生成されました。

「ごめんなさい」と言うのが時々どれほど難しいか、私もよく分かっています。だから、ラガヴァンが謝る寸前で止めたことを許します。それよりも重要なのは、そこに出てくる興味深い言葉です。「モデルは私たちの意図よりもはるかに慎重になりました。」

さて、モデルはどのようにして「何かになる」のでしょうか?それはソフトウェアです。誰かが ― 何千人ものGoogleエンジニアが ― それを作り上げ、テストし、改良を繰り返しました。誰かが暗黙の指示を書き、その結果、一部の回答は改善され、他の回答は滑稽な失敗に終わりました。この回答が失敗したとき、もし誰かがプロンプト全体を検査できていれば、Googleチームの間違いに気付いたはずです。

Googleは、このモデルが「意図」と異なる何かに「なってしまった」と非難しています。しかし、モデルを作ったのはGoogleです!まるでガラスを割ったのに「落とした」と言う代わりに「落ちた」と言うようなものです(私も同じ経験があります)。

これらのモデルによる間違いは、もちろん避けられません。幻覚を起こし、バイアスを反映し、予期せぬ行動をとるからです。しかし、それらの間違いの責任はモデルではなく、それを作った人々にあります。今日はGoogleです。明日はOpenAIです。その次の日、そしておそらく数ヶ月間はX.AIです。

これらの企業は、AIが自ら間違いを犯しているとあなたに信じ込ませることに強い関心を持っています。彼らに騙されないでください。