Google が長らく約束していた次世代生成 AI モデル「Gemini」がついに登場。まあ、そうかもしれない。
今週発売されるGeminiのバージョン、Gemini Proは、基本的には来年中に発売予定の、よりパワフルで高性能なGeminiモデルの軽量版です。でも、ちょっと先走りすぎですね。
昨日のバーチャル記者会見では、Google Research と並んで Gemini の原動力となっている Google DeepMind チームのメンバーが、Gemini (技術的には「Gemini 1.0」) とその機能について概要を説明しました。
実は、GeminiはAIモデルのファミリーであり、単一のモデルではありません。3つの種類があります。
- ジェミニのフラッグシップモデル、ジェミニ ウルトラ
- ジェミニプロ、ジェミニの「ライト」モデル
- Gemini Nano は、Pixel 8 Pro* などのモバイル デバイスで動作するように最適化されています。
*さらに混乱を招くのは、Gemini Nano には Nano-1 (18 億パラメータ) と Nano-2 (32.5 億パラメータ) という 2 つのモデル サイズがあり、それぞれ低メモリ デバイスと高メモリ デバイスを対象としていることです。

Gemini Proを試す最も簡単な方法は、GoogleのChatGPTの競合であるBardです。Bardは現在、Gemini Proの微調整版を搭載しています。少なくとも米国英語版では(テキストのみ、画像には対応していません)。GoogleアシスタントとBardのGMであるシシー・シャオ氏は、ブリーフィングの中で、微調整されたGemini Proは、Bardを駆動していた以前のモデルよりも推論、計画、理解能力が向上していると述べました。
これらの改善点については、私たちが独自に確認することはできません。Googleは発表前に記者によるモデルの試用を許可しておらず、実際、説明会ではライブデモも行いませんでした。
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日
Gemini Proは、Googleのフルマネージド機械学習プラットフォームであるVertex AIを利用する企業顧客向けに12月13日にリリースされ、その後、GoogleのGenerative AI Studio開発者スイートに提供されます。(鋭い観察力を持つユーザーの中には、Vertex AIのモデルガーデンにGeminiモデルのバージョンが表示されているのを既に発見している人もいます。)そのほか、Geminiは今後数ヶ月以内に、Duet AI、Chrome、AdsなどのGoogle製品や、Google Search Generative Experienceの一部としてGoogle検索にも提供される予定です。
一方、Gemini Nanoは、Googleが最近リリースしたAI Coreアプリ経由でまもなくプレビュー版としてリリースされます。これは現時点ではPixel 8 ProのAndroid 14専用です。このモデルをアプリに組み込みたいAndroid開発者は、今すぐサインアップしてプレビュー版を入手できます。Gemini Nanoは、まずPixel 8 Proで、そして将来的には他のAndroidデバイスでも、10月のPixel 8 Pro発表時にGoogleがプレビューした機能、例えばレコーダーアプリの要約作成や、対応メッセージングアプリ(WhatsAppから開始)の返信候補機能などを実現します。
ネイティブマルチモーダル
Gemini Pro、あるいは少なくともBardを動かすGemini Proの微調整バージョンには、特筆すべき点はあまりありません。
シャオ氏によると、Gemini Proはコンテンツの要約、ブレインストーミング、ライティングといったタスクにおいてより優れた能力を発揮し、小学校レベルの数学推論能力を測定するGSM8Kを含む6つのベンチマークで、GPT-4の前身であるOpenAIのGPT-3.5を凌駕しているという。しかし、GPT-3.5はリリースから1年以上経過しており、現時点ではそれを上回るのがそれほど難しいマイルストーンではない。
では、ジェミニ ウルトラはどうでしょうか?きっともっとすごいはずですよね?
幾分。
Gemini Proと同様に、Gemini Ultraは「ネイティブマルチモーダル」となるように訓練されています。つまり、膨大なコードベース、様々な言語のテキスト、音声、画像、動画を用いて事前学習・微調整されています。DeepMindのプロダクト担当副社長であるイーライ・コリンズ氏は、Gemini Ultraはテキスト、画像、音声、コードに含まれる「ニュアンスのある」情報を理解し、「複雑な」トピック、特に数学や物理学に関する質問に答えることができると主張しています。

この点で、Gemini Ultraは、OpenAI独自のマルチモーダルモデルであるGPT-4 with Visionよりも優れた点がいくつかあります。GPT-4 with Visionは、単語と画像という2つのモダリティのコンテキストしか理解できません。Gemini Ultraは、アートや写真に加えて、音声を書き起こし、音声や動画に関する質問(「このクリップでは何が起こっているのですか?」など)に答えることができます。
「マルチモーダルモデルを作成するための標準的なアプローチでは、異なるモダリティごとに個別のコンポーネントをトレーニングする必要があります」とコリンズ氏は説明会で述べた。「これらのモデルは、画像の説明といった特定のタスクでは非常に優れていますが、より複雑な概念や推論のタスクでは苦戦します。そこで、Geminiはネイティブにマルチモーダルになるように設計しました。」
Geminiのトレーニングデータセットについてもっと詳しくお話しできればと思っています。私自身も興味があるので。しかし、GoogleはGeminiのトレーニングデータをどのように収集したのか、どこから来たのか、そして第三者からライセンス供与を受けたものがあるのかといった記者からの質問に繰り返し回答を拒否しました。
コリンズ氏は、データの少なくとも一部は公開されているウェブソースからのものであり、Googleが質の高いコンテンツと「不適切な」コンテンツを「フィルタリング」していたことを明らかにした。しかし、彼は、ジェミニのトレーニングデータに無意識のうちに貢献した可能性のあるクリエイターが、オプトアウトしたり、報酬を期待・要求したりできるかどうかという、議論を呼ぶ重要な問題には触れなかった。

OpenAIは最近、他の生成AIベンダー数社に加わり、アーティストが将来のアート生成モデルのトレーニングデータセットの利用を拒否できるようにすると発表した。Googleはアート生成モデルに限らず、そのようなオプションを提供しておらず、Geminiでもこの方針は変わらないようだ。
Googleは、Geminiを自社製AIチップであるテンソルプロセッシングユニット(TPU)(具体的にはTPU v4とv5e(将来的にはv5p))でトレーニングし、TPUとGPUの組み合わせでGeminiモデルを実行しています。(今朝公開された技術ホワイトペーパーによると、Gemini Proのトレーニングには「数週間」かかり、Gemini Ultraはおそらくそれよりもずっと長い時間がかかったとのことです。)コリンズ氏は、GeminiはGoogleのこれまでで最も「効率的」な大規模生成AIモデルであり、マルチモーダルな先行モデルよりも「大幅に安価」であると主張しましたが、トレーニングに使用されたチップの数やコスト、あるいはトレーニングによる環境への影響については明らかにしませんでした。
ある記事によると、GPT-4規模のモデルを学習させると、300トン以上のCO2が排出されると推定されています。これは、アメリカ人1人が年間に排出するCO2排出量(約5トン)を大幅に上回ります。Googleがこの影響を軽減するための措置を講じたことを期待したいところですが、少なくとも記者が出席した説明会では、Googleはこの問題について言及しませんでした。この点について、確かなことは誰にもわかりません。
より良いモデル — わずかに
事前に録画されたデモでは、Google は、ワークシート上で問題を段階的に解き、すでに記入されている回答の間違いを指摘しながら、Gemini を使用して物理の宿題を手伝う方法を紹介した。
もう一つのデモ(これも録画済み)では、ジェミニが特定の問題セットに関連する科学論文を識別し、それらの論文から情報を抽出し、より新しいデータでチャートを再作成するために必要な数式を生成して、あるチャートから「更新」する様子が紹介されました。
「今回の研究は、ディープマインドが先駆的に開発した『思考の連鎖を促す』手法の延長線上にあると言えるでしょう。つまり、さらなる指示の調整によって、モデルに(より複雑な)指示を理解させることができるのです」とコリンズ氏は述べた。「物理学の宿題の例で言えば、モデルに画像だけでなく、例えば物理学の宿題の計算上の誤りを特定するといった指示も与えることができます。そのため、モデルはより複雑な指示にも対応できるのです。」
コリンズ氏は説明会で何度もGemini Ultraのベンチマークの優位性を強調し、このモデルは「大規模言語モデルの研究開発で広く使用されている32の学術ベンチマークのうち30」において、現在の最先端の結果を上回っていると主張しました。しかし、結果を詳しく見てみると、Gemini Ultraは多くのベンチマークにおいてGPT-4やGPT-4 with Visionをわずかに上回るスコアしか出ていないことがすぐにわかります。

例えば、GSM8Kでは、Gemini Ultraは数学の問題の正答率が94.4%であるのに対し、GPT-4は92%です。読解力のDROPベンチマークでは、Gemini UltraはGPT-4を82.4%、80.9%と僅差で上回りました。ニューラル画像理解ベンチマークであるVQAv2では、GeminiはGPT-4 with Visionをわずか0.6%上回りました。また、Big-Bench Hard推論スイートでは、Gemini UltraはGPT-4をわずか0.5%上回りました。
コリンズ氏は、Gemini Ultraがマルチモーダル推論の新しいベンチマークであるMMMUで59.4%という「最先端」スコアを達成し、GPT-4 with Visionを上回っていると指摘しています。しかし、常識推論のテストセットであるHellaSwagでは、Gemini UltraはGPT-4にかなり遅れをとり、87.8%のスコアにとどまりました。GPT-4は95.3%のスコアです。
ジェミニ・ウルトラは他の生成AIモデルと同様に幻覚、つまり自信過剰に事実を捏造する傾向があるのかと記者に問われたコリンズ氏は、「それは解決済みの研究課題ではない」と答えた。この発言をどう受け止めるかはあなた次第だ。
今日の最高の生成AIモデルでさえ、特定の指示に対して問題のある有害な反応を示すことを考えると、Gemini Ultraにもバイアスや有害性が生じる可能性は十分に考えられる。他の生成AIモデルと同様に、Gemini Ultraはほぼ間違いなくアングロセントリックである。コリンズ氏によると、Gemini Ultraは約100言語間で翻訳できるものの、南半球諸国向けにモデルをローカライズするための具体的な作業は行われていないという。

もう一つの重要な制限として、Gemini Ultraアーキテクチャは画像生成をサポートしていますが(理論上はGemini Proも同様です)、その機能は発売時点では製品版モデルには組み込まれません。これはおそらく、そのメカニズムが、例えばChatGPTが画像を生成する方法よりもやや複雑であるためでしょう。Geminiは、画像生成器(ChatGPTの場合はDALL-E 3)にプロンプトを入力するのではなく、中間ステップを介さずに「ネイティブに」画像を出力します。
コリンズ氏は、画像生成がいつ実現するかについてはタイムラインを明らかにしなかったが、作業は「進行中」であると保証しただけだった。
門を飛び出した
今週のジェミニ「打ち上げ」から受ける印象は、少々急いで行われたというものだ。
Googleは年次開発者会議I/Oで、Geminiが「従来のモデルには見られなかった驚異的なマルチモーダル機能」と「ツールおよびAPI統合における[効率性]」を実現すると約束しました。また、6月にWired誌のインタビューで、DeepMindの共同創業者兼代表であるデミス・ハサビス氏は、Geminiがテキスト生成AI分野に、計画力や問題解決能力といった、いくぶん斬新な機能をもたらすと述べました。
Gemini Ultraはこれらすべて、そしてそれ以上のことができるかもしれない。しかし、昨日の説明会は特に説得力のあるものではなく、Googleのこれまでの、そして近年の世代別AI開発における失敗を考えると、説得力のある説明が必要だったと私は思う。

Googleは今年初めから生成AIの分野で追い上げを図っており、OpenAIやGoogleが開発した話題のChatGPTを追いかけている。Bardは2月にリリースされたが、基本的な質問に正しく答えられないという批判を受け、倫理チームを含むGoogleの従業員はリリース時期の早まりに懸念を表明した。
その後、GoogleがBardの学習データにアノテーションを施すために、AppenとAccentureから過重労働で低賃金のサードパーティ契約社員を雇っていたという報道が浮上した。Geminiでも同じことが当てはまるかもしれない。Googleは昨日これを否定しておらず、技術ホワイトペーパーにはアノテーターには「少なくとも現地の生活賃金」が支払われているとしか記載されていない。
さて、公平に言えば、Google は、Bard が発売以来大幅に改善され、PaLM 2 や Imagen などの自社開発モデルを活用した新しい生成 AI 搭載機能を自社の製品、アプリ、サービス数十個に導入することに成功したという意味で進歩していると言える。
しかし、報道によれば、ジェミニの開発は困難を極めているようだ。
ジェミニは、Googleの最高幹部、特に同社AI研究担当役員のジェフ・ディーン氏を含む同社幹部が直接関与したと報じられているが、英語以外のクエリを確実に処理するといったタスクに苦戦していると言われており、これがGemini Ultraのリリース遅れの一因となっている。(Googleによれば、Gemini Ultraは、開発者とエンタープライズ顧客に展開される前に、選ばれた顧客、開発者、パートナー、および「安全性と責任の専門家」のみが利用できる。その後、Bardが「来年初め」に展開される。)コリンズ氏によると、GoogleはまだGemini Ultraの斬新な機能のすべてを把握しているわけではなく、Geminiの収益化戦略も考えていないという。(AIモデルのトレーニングと推論の莫大なコストを考えると、それが明らかになるまでにはそう長くかからないだろう。)

つまり、Gemini Pro が残ることになります。そして、特にモデルのコンテキストウィンドウが技術ホワイトペーパーに記載されている約 24,000 語のままであれば、Gemini Ultra も期待外れになる可能性が非常に高いでしょう。(コンテキストウィンドウとは、モデルが追加のテキストを生成する前に考慮するテキストを指します。)GPT-4 はそのコンテキストウィンドウ(約 100,000 語)をはるかに上回っていますが、コンテキストウィンドウがすべてではないことは認めざるを得ません。モデルを実際に手にするまでは、判断を保留します。
ジェミニは生成AIのわずかな変化ではなく、真に素晴らしいものになると予告したGoogleのマーケティング戦略が、今回の製品発表の失敗の原因なのだろうか?もしかしたらそうかもしれない。あるいは、最先端の生成AIモデルの構築は、たとえAI部門全体を再編してプロセスを活性化させたとしても、非常に難しいのかもしれない。