Google の生成 AI モデル ファミリーである Gemini は、これまでよりも長いドキュメント、コードベース、ビデオ、音声録音を分析できるようになりました。
Googleは火曜日に開催された開発者会議「Google I/O 2024」の基調講演で、同社の現行フラッグシップモデルであるGemini 1.5 Proの新バージョン、Gemini 1.5 Proのプライベートプレビューを発表しました。このバージョンは最大200万トークンを処理できます。これは従来の最大量の2倍です。
新バージョンのGemini 1.5 Proは200万トークンに対応しており、市販モデルの中で最大の入力容量を誇ります。次に大きいのはAnthropicのClaude 3で、100万トークンまで対応しています。
AI分野では、「トークン」とは、生のデータを細分化したビットを指します。例えば、「fantastic」という単語の「fan」「tas」「tic」といった音節です。200万トークンは、約140万語、2時間の動画、または22時間の音声に相当します。

大きなファイルを分析できるだけでなく、より多くのトークンを受け入れることができるモデルでは、パフォーマンスが向上することもあります。
最大トークン入力数( コンテキストとも呼ばれます)が少ないモデルとは異なり、200万トークン入力に対応するGemini 1.5 Proのようなモデルは、ごく最近の会話の内容を簡単に「忘れて」話題から逸れることがありません。また、大規模コンテキストモデルは、少なくとも仮定の上では、取り込むデータの流れをより適切に把握し、より文脈的に豊かな応答を生成することができます。
200 万トークンのコンテキストを備えた Gemini 1.5 Pro を試用することにご興味のある開発者は、Google の生成 AI 開発ツールである Google AI Studio のウェイティングリストにご登録いただけます。(100 万トークンのコンテキストを備えた Gemini 1.5 Pro は、来月中に Google の開発者向けサービスおよびサーフェス全体で一般提供が開始されます。)
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日
Googleによると、コンテキストウィンドウの拡大に加え、Gemini 1.5 Proは過去数ヶ月にわたりアルゴリズムの改良によって「強化」されてきたという。コード生成、論理的推論と計画、マルチターン会話、音声と画像の理解といった機能が強化されているという。また、Gemini APIとAI Studioでは、1.5 Proは画像や動画に加えて音声も認識できるようになり、「システムインストラクション」と呼ばれる機能によって「操作」できるようになっている。
ジェミニ1.5フラッシュ、より高速なモデル
それほど要求の厳しくないアプリケーション向けに、Googleはパブリックプレビュー版としてGemini 1.5 Flashをリリースしました。これはGemini 1.5 Proの「蒸留版」であり、「狭域」かつ「高頻度」な生成AIワークロード向けに構築された、小型で効率的なモデルです。最大200万トークンのコンテキストウィンドウを持つFlashは、Gemini 1.5 Proと同様にマルチモーダルであり、テキストだけでなく、音声、動画、画像も分析できます(ただし、生成するのはテキストのみです)。
「Gemini Proは、より汎用的または複雑で、多くの場合複数段階の推論タスクに適しています」と、Googleの実験的AI部門の一つであるGoogle Labsのバイスプレジデント、ジョシュ・ウッドワード氏は記者会見で述べた。「しかし、開発者として、モデル出力の速度を重視するなら、Flashを使うのが賢明でしょう。」

ウッドワード氏は、Flash は要約、チャット アプリ、画像や動画のキャプション作成、長い文書や表からのデータ抽出などのタスクに特に適していると付け加えた。
Flashは、AnthropicのClaude 3 HaikuのようなAPI経由で提供される小規模で低コストなモデルに対するGoogleの回答のようです。Gemini 1.5 Proと共に、現在では欧州経済地域、英国、スイスを含む200以上の国と地域で広く利用可能です。(ただし、200万トークンのコンテキストバージョンは、ウェイティングリストに登録する必要があります。)
— Google (@Google) 2024年5月14日Gemini 1.5 Flash のご紹介 ⚡
これは軽量モデルで、低レイテンシとコストが最も重要となるタスク向けに最適化されています。本日より、開発者はGoogle AI StudioとVertex AIで最大100万トークンまでご利用いただけます。#GoogleIO pic.twitter.com/I1adecF9UT
コスト意識の高い開発者向けのもう一つのアップデートでは、FlashだけでなくすべてのGeminiモデルで、コンテキストキャッシングと呼ばれる機能がまもなく利用可能になります。これにより、開発者は大量の情報(例えば、ナレッジベースや研究論文のデータベースなど)をキャッシュに保存し、Geminiモデルは迅速かつ比較的低コスト(使用量の観点から)でアクセスできるようになります。
Google のエンタープライズ向け生成 AI 開発プラットフォームである Vertex AI で本日パブリック プレビューとして公開された無料の Batch API は、分類や感情分析、データ抽出、説明生成などのワークロードをよりコスト効率よく処理する方法を提供し、1 回のリクエストで複数のプロンプトを Gemini モデルに送信できるようになります。
今月後半に Vertex のプレビューで登場するもう 1 つの新機能である制御された生成により、ユーザーが特定の形式またはスキーマ (JSON や XML など) に従って Gemini モデルの出力を定義できるようになり、さらなるコスト削減につながる可能性があると Woodward 氏は示唆しています。
「すべてのファイルを一度モデルに送信すれば、何度も再送信する必要がなくなります」とウッドワード氏は述べた。「これにより、特にロングコンテキストの利便性が大幅に向上し、コストも削減されるはずです。」