「視覚的」AIモデルは何も見ていないかもしれない

「視覚的」AIモデルは何も見ていないかもしれない

GPT-4oやGemini 1.5 Proといった最新の言語モデルは、「マルチモーダル」と謳われ、テキストだけでなく画像や音声も理解できるとされています。しかし、新たな研究により、これらのモデルは私たちが期待するような視覚を持っていないことが明らかになりました。実際、全く視覚を持っていない可能性もあるのです。

最初に明確にしておきたいのは、「このAIは人間と同じように見える!」などと主張する人は誰もいないということです(まあ、もしかしたら何人かはそうかもしれません)。しかし、これらのモデルを宣伝するために使われるマーケティングやベンチマークでは、「視覚能力」「視覚理解」といったフレーズが使われています。モデルが画像や動画をどのように見て分析するかについて語られており、宿題の問題から試合の観戦まで、あらゆることができるとされています。

これらの企業の主張は巧妙に表現されているものの、モデルが何らかの意味で「見ている」と表現したいのは明らかです。実際、モデルは「見ている」のですが、それは数学を解いたり物語を書いたりするのと同じような方法、つまり入力データのパターンと学習データのパターンを照合するようなものです。そのため、乱数を選ぶといった一見些細なタスクでも、モデルは同じように失敗します。

オーバーン大学とアルバータ大学の研究者らは、現在のAIモデルの視覚理解に関する、ある意味では非公式ながらも体系的な研究を行いました。彼らは、2つの図形が重なっているかどうか、絵の中に五角形がいくつあるか、単語のどの文字が丸で囲まれているかといった、一連の非常に単純な視覚タスクで、最大規模のマルチモーダルモデルをテストしました。(概要はこちらのマイクロページからご覧いただけます。)

これらは小学 1 年生でも正解できる類のものですが、AI モデルにとっては大きな困難でした。

「私たちが提案する7つのタスクは極めて単純で、人間であれば100%の精度で実行できます。AIにも同じことができると期待していますが、現状ではそうではありません」と、共著者のアン・グエン氏はTechCrunchへのメールで述べています。「私たちのメッセージは、『見てください、これらの最高のモデルは依然として失敗しています』ということです。」

画像クレジット: Rahmanzadehgervi 他

重なり合う形状のテストは、考えられる中で最も単純な視覚推論タスクの一つです。わずかに重なり合っている、わずかに接触している、あるいはある程度の距離がある2つの円を提示された際、モデルは一貫して正しく認識することができませんでした。確かに、GPT-4oは円と円が離れている場合には95%以上の確率で正しく認識しましたが、距離がゼロまたは近い場合には、わずか18%しか正しく認識できませんでした。Gemini Pro 1.5は最も優れた結果を出しましたが、それでも近距離では7/10の精度しか得られませんでした。

(図はモデルの正確なパフォーマンスを示すものではなく、条件間でのモデルの不一致を示すことを目的としています。各モデルの統計情報は論文に記載されています。)

あるいは、画像内の絡み合った円の数を数えるのはどうでしょうか? きっと、平均以上の馬ならできるはずです。

画像クレジット: Rahmanzadehgervi 他

リングが5つある場合は、すべて100%正解しますが、リングを1つ追加すると結果が全く変わります。Geminiは一度も正解できず、迷子になっています。Sonnet-3.5は6つ正解…3分の1の確率で正解し、GPT-4oは半分弱の確率で正解します。リングをもう1つ追加するとさらに難しくなりますが、一部の人にとっては簡単になることもあります。

この実験のポイントは、これらのモデルが何をしようとも、それが私たちが「見ている」と考えるものとは実際には一致しないことを示すことです。結局のところ、たとえそれらの視力が悪かったとしても、6つ、7つ、8つ、そして9つのリング像の成功度がこれほど大きく異なるとは予想できません。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

他のテストでも同様のパターンが見られました。視力や推論能力が優れていたり劣っていたりするわけではなく、ある場合には数を数えることができて、別の場合にはできないのには何か他の理由があるようでした。

もちろん、考えられる答えの 1 つは、目の前にあります。なぜ、5 つの円の画像を正しく正解するのは得意なのに、残りの部分、または 5 つの五角形の場合はひどく失敗するのでしょうか。(公平を期すために言うと、Sonnet-3.5 はこの点でかなり良い結果を出しました。) なぜなら、それらすべてのトレーニング データに、オリンピック リングという 5 つの円の画像が目立つ形で含まれているからです。

画像クレジット: IOC

このロゴはトレーニングデータの中で何度も繰り返されているだけでなく、代替テキスト、使用ガイドライン、関連記事などでも詳細に説明されている可能性が高いです。しかし、トレーニングデータのどこに6つの連結リングがあるのでしょうか?あるいは7つでしょうか?彼らの回答が示すように、どこにも見当たりません!彼らは自分が何を見ているのか全く分かっておらず、リングや重なり、あるいはこれらの概念が何なのかを視覚的に理解していません。

研究者たちは、モデルが持つと非難されているこの「盲目性」についてどう考えているのか尋ねてみた。私たちが使う他の用語と同様に、この「盲目性」にも擬人化された性質があり、正確ではないものの、どうしても避けられない。

「『盲目』という言葉には人間にも様々な定義があり、人間が提示する画像に対するAIのこの種の盲目性/無感覚性を表す言葉はまだありません」とグエン氏は書いている。「現在、モデルが見ているものを正確に視覚化する技術は存在しません。そして、その動作は入力テキストプロンプト、入力画像、そして数十億もの重み付けによって構成される複雑な関数なのです。」

彼は、これらのモデルは完全に盲目ではないものの、画像から抽出する視覚情報は「左側に円がある」といったような、近似的で抽象的なものだと推測した。しかし、これらのモデルは視覚的に判断する手段を持たないため、画像に関する情報はあっても実際には見ることができない人のような反応を示すのだ。

最後の例として、Nguyen 氏は上記の仮説を裏付ける次のメッセージを送信しました。

画像クレジット: Anh Nguyen

青い円と緑の円が重なると(質問によってモデルが事実と見なすように促されているため)、ベン図のように水色の網掛け領域が生じることがよくあります。もし誰かがあなたにこの質問をしたら、あなたや賢い人なら誰でも同じ答えを出すかもしれません。なぜなら、目を閉じていれば全くあり得るからです!しかし、目を開けている人は誰もそんな風に答えないでしょう。

これらすべては、これらの「視覚」AIモデルが役に立たないことを意味するのでしょうか?決してそうではありません。特定の画像について基本的な推論ができないことは、それらの基本的な能力を物語っており、特定の能力を物語っているわけではありません。これらのモデルはそれぞれ、人間の行動や表情、日常的な物や状況の写真など、非常に高い精度で解釈できる可能性があります。そして実際、それらのモデルはまさにそれを解釈することを目的としているのです。

AI企業のマーケティングに頼って、これらのモデルができることの全てを語っていたら、私たちは彼らの視力が100%だと思い込んでしまうでしょう。しかし、モデルが人が座っているか、歩いているか、走っているかをどれほど正確に判断できたとしても、私たちが一般的に考える意味での「見る」ことなく判断していることを示すために、このような研究が必要なのです。