Googleの主力生成AIモデルであるGemini 1.5 Proと1.5 Flashのセールスポイントの一つは、処理・分析できるとされるデータ量です。記者会見やデモにおいて、Googleはこれらのモデルが「長いコンテキスト」のおかげで、数百ページに及ぶ文書の要約や映画のシーン間の検索など、これまで不可能だったタスクを達成できると繰り返し主張してきました。
しかし、新たな研究によれば、これらのモデルは実際にはそれほど優れていないことが示唆されている。
2つの別々の研究で、GoogleのGeminiモデルと他社のモデルが、膨大な量のデータ(「戦争と平和」の長さを想像してみてください)をどれだけ正確に理解できるかを調査しました。どちらの研究でも、Gemini 1.5 Proと1.5 Flashは大規模なデータセットに関する質問に正しく答えるのに苦労していることがわかりました。ある一連のドキュメントベースのテストでは、モデルが正しい答えを出した確率はわずか40%から50%でした。
「Gemini 1.5 Proのようなモデルは技術的には長いコンテキストを処理できますが、モデルが実際にはコンテンツを『理解』していないことを示す事例を数多く見てきました」と、マサチューセッツ大学アマースト校の博士研究員で、研究論文の共著者でもあるマルゼナ・カルピンスカ氏はTechCrunchに語った。
Geminiのコンテキストウィンドウが欠けている
モデルのコンテキスト、またはコンテキストウィンドウとは、モデルが出力(追加テキストなど)を生成する前に考慮する入力データ(例:テキスト)を指します。「2020年の米国大統領選挙の勝者は誰ですか?」といったシンプルな質問もコンテキストとして機能します。映画の脚本、番組、音声クリップなどもコンテキストとして機能します。コンテキストウィンドウが大きくなるにつれて、そこに収まるドキュメントのサイズも大きくなります。
最新バージョンのGeminiは、200万以上のトークンをコンテキストとして取り込むことができます。(「トークン」とは、生のデータを細分化したもので、「fantastic」という単語の「fan」「tas」「tic」といった音節のようなものです。)これは約140万語、2時間の動画、または22時間の音声に相当し、市販されているモデルの中で最大のコンテキストとなります。
今年初めの説明会で、GoogleはGeminiのロングコンテキスト機能の可能性を示すため、事前に録画されたデモをいくつか公開しました。その一つでは、Gemini 1.5 Proがアポロ11号の月面着陸に関するテレビ放送のトランスクリプト(約402ページ)からジョークを含む引用を検索し、鉛筆画に似たシーンを放送から見つけ出すというものでした。
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日
説明会を主導したGoogle DeepMindの研究担当副社長オリオール・ヴィニャルズ氏は、このモデルを「魔法のようだ」と評した。
「[1.5 Pro]は、あらゆるページ、あらゆる単語にわたって、こうした種類の推論タスクを実行します」と彼は語った。
それは誇張だったかもしれない。
前述のこれらの能力をベンチマークした研究の一つで、カーピンスカ氏はアレンAI研究所とプリンストン大学の研究者らと共同で、英語で書かれたフィクション書籍に関する真偽の記述をモデルに評価させました。研究者らは、モデルが先入観に頼って「ズル」をできないように、最近の作品を選び、記述には書籍全体を読まなければ理解できないような具体的な詳細や筋書きへの言及を散りばめました。
「アポスとしてのスキルを使用することで、ヌシスはロナの木箱にある試薬の鍵で開かれるポータルの種類をリバースエンジニアリングすることができます」のような記述があった場合、関連する本を摂取したジェミニ 1.5 プロと 1.5 フラッシュは、その記述が真実か虚偽かを述べ、その理由を説明する必要がありました。

研究者たちは、約26万語(約520ページ)の書籍1冊でテストを実施し、1.5 Proは正誤問題に46.7%の確率で正解したのに対し、Flashはわずか20%の確率で正解したことを突き止めました。すべてのベンチマーク結果を平均すると、どちらのモデルも質問回答の精度において、ランダムチャンスをわずかに上回る結果には至りませんでした。
「文章レベルの証拠を取得することで解決できる主張と比べて、本の大部分、あるいは本全体を考慮する必要がある主張の検証は、モデルにとってより困難であることに気づきました」とカルピンスカ氏は述べた。「定性的な観点から見ると、人間の読者には明らかだが、本文には明示的に記載されていない暗黙の情報に関する主張の検証にも、モデルは苦労していることがわかりました。」
2 つの研究のうちの 2 つ目の研究は、カリフォルニア大学サンタバーバラ校の研究者が共同執筆したもので、Gemini 1.5 Flash (1.5 Pro ではない) のビデオを「推論する」能力、つまりビデオを検索してコンテンツに関する質問に答える能力をテストしました。
共著者らは、画像(例:誕生日ケーキの写真)と、画像に描かれた物体についてモデルが回答する質問(例:「このケーキにはどんな漫画のキャラクターがいますか?」)を組み合わせたデータセットを作成しました。モデルを評価するために、ランダムに画像を1枚選び、その前後に「妨害画像」を挿入してスライドショーのような映像を作成しました。
Flashのパフォーマンスはそれほど良くありませんでした。25枚の画像の「スライドショー」から手書きの数字6桁をモデルに書き写させるテストでは、Flashは約50%の精度で書き写しました。数字8桁になると、精度は約30%に低下しました。
「画像を使った実際の質問応答タスクでは、テストしたすべてのモデルにとって特に難しいようです」と、カリフォルニア大学サンタバーバラ校の博士課程学生で、この研究の共著者の一人であるマイケル・サクソン氏はTechCrunchに語った。「フレーム内に数字があることを認識して読み取るという、ほんのわずかな推論が、このモデルを破綻させているのかもしれません。」
GoogleはGeminiで過剰な約束をしている
どちらの研究も査読を受けておらず、200万トークンのコンテキストでGemini 1.5 Proと1.5 Flashのリリースを検証していません(どちらも100万トークンのコンテキストリリースをテストしました)。また、Flashはパフォーマンスの点でProと同等の性能を持つようには設計されていません。GoogleはFlashを低コストの代替手段として宣伝しています。
とはいえ、どちらも、Googleが当初からGeminiで過剰な約束をし、期待に応えられずにきた現状に油を注いでいる。研究者がテストしたモデルは、OpenAIのGPT-4oやAnthropicのClaude 3.5 Sonnetなど、どれも良いパフォーマンスを発揮しなかった。しかし、Googleは広告でコンテキストウィンドウを最優先に位置付けている唯一のモデルプロバイダーだ。
「客観的な技術的詳細に基づいて、『当社のモデルはX個のトークンを処理できます』という単純な主張自体には何の問題もありません」とサクソン氏は述べた。「しかし問題は、それを使ってどんな有用なことができるのかということです。」
生成 AI は、企業 (および投資家) がこの技術の限界に不満を募らせるにつれ、全般的に厳しい監視を受けるようになっています。
ボストン コンサルティング グループが最近実施した2つの調査では、回答者の約半数(全員が経営幹部)が、生成AIが生産性の大幅な向上をもたらすとは期待しておらず、生成AI搭載ツールによってミスやデータ漏洩が発生する可能性を懸念していると回答しました。PitchBookは最近、初期段階における生成AIを活用した取引が2四半期連続で減少し、2023年第3四半期のピークから76%も急落したと報告しました。
会議の要約をまとめるチャットボットが人物に関する架空の情報を提示したり、AI検索プラットフォームが盗作生成ツールに過ぎなかったりする状況に直面し、顧客は有望な差別化要因を探し求めている。生成AIのライバルに追いつこうと、時に不器用ながらも競争してきたGoogleは、Geminiのコンテキストをそうした差別化要因の一つにしようと躍起になっていた。
しかし、どうやらその賭けは時期尚早だったようだ。
「長い文書に対する『推論』や『理解』が実際に行われていることを示す方法はまだ決まっていません。基本的に、これらのモデルを公開しているグループは皆、独自のアドホックな評価を寄せ集めて、こうした主張をしています」とカーピンスカ氏は述べた。「コンテキスト処理がどの程度長く実装されているかが分からなければ、そして企業はこうした詳細を共有していないため、こうした主張がどれほど現実的であるかを判断するのは難しいのです。」
グーグルはコメント要請に応じなかった。
サクソン氏とカルピンスカ氏は共に、生成AIをめぐる誇大宣伝への対策は、より優れたベンチマークと、同様に第三者による批評をより重視することだと考えている。サクソン氏は、ロングコンテキストの一般的なテストの一つ(Googleがマーケティング資料で頻繁に引用している)である「干し草の山の中の針」は、データセットから名前や数字などの特定の情報を取得するモデルの能力を測定するだけで、その情報に関する複雑な質問に答えることはできないと指摘する。
「これらのモデルを使用しているすべての科学者とほとんどのエンジニアは、既存のベンチマーク文化が崩壊していることに基本的に同意しています」とサクソン氏は述べた。「そのため、一般の人々が『ベンチマーク全体にわたる一般的な知能』のような数字を含むこれらの膨大なレポートを鵜呑みにしないことを理解することが重要なのです。」
7/3更新:この記事の以前のバージョンでは、Gemini 1.5 Proと1.5 Flashの長文推論タスクにおける精度がランダムチャンスを下回ると記載していました。実際には、これらの精度はランダムチャンスを上回っていました。修正しました。Google PRは、Geminiのロングコンテキストパフォーマンスがここで示唆されているよりも優れていることを示唆する研究へのリンクも提供しました:Extended Multi-Doc QA、Video MME、LMSYSの長文クエリサブセット、Ruler。