Googleの新しいGeminiモデルは1時間の動画を分析できるが、それを使いこなせる人はほとんどいない

Googleの新しいGeminiモデルは1時間の動画を分析できるが、それを使いこなせる人はほとんどいない

昨年10月、Googleのデータサイエンティストであり、DatabricksのCTOであるマテイ・ザハリア氏とカリフォルニア大学バークレー校のピーター・アビール教授によって発表された研究論文は、GenAIモデル(OpenAIのGPT-4やChatGPTに類似したモデル)が、これまでよりもはるかに多くのデータを処理できるようにする方法を提唱しました。この研究で共著者らは、AIモデルの主要なメモリボトルネックを解消することで、当時の最高性能モデルでも最大だった数十万語ではなく、数百万語を処理できるモデルを実現できることを実証しました。

AI研究は急速に進んでいるようです。

Googleは本日、GenAIモデル「Gemini」シリーズの最新モデルとなる「Gemini 1.5 Pro」のリリースを発表しました。「Gemini 1.0 Pro」(以前は「Gemini Pro 1.0」と呼ばれていましたが、その理由はGoogleの複雑なマーケティング部門のみが知っています)の代替品として設計された「Gemini 1.5 Pro」は、前モデルと比較して多くの点で改良されており、おそらく最も顕著なのは処理可能なデータ量でしょう。

Gemini 1.5 Proは約70万語、コード行数は約3万行に対応しており、これはGemini 1.0 Proの35倍に相当します。また、マルチモーダルモデルであるため、テキストに限定されません。Gemini 1.5 Proは、様々な言語で最大11時間の音声または1時間の動画を取り込むことができます。

Google Gemini 1.5 プロ
画像クレジット: Google

明確に言えば、それは上限です。

本日よりほとんどの開発者および顧客に提供されるGemini 1.5 Pro(限定プレビュー版)は、一度に約10万語しか処理できません。Googleは、大規模データ入力に対応するGemini 1.5 Proを「実験的」と位置付けており、プライベートプレビューとして承認された開発者のみが、同社のGenAI開発ツールAI Studioを介して試験的に利用することができます。GoogleのVertex AIプラットフォームを使用している一部の顧客も、大規模データ入力に対応するGemini 1.5 Proにアクセスできますが、すべての顧客がアクセスできるわけではありません。

それでも、Google DeepMindの研究担当副社長オリオール・ヴィニャルズ氏はこれを成果として称賛した。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

「[GenAI]モデルとインタラクトする際、入力・出力される情報がコンテキストとなります。質問やインタラクションが長く複雑になるほど、モデルが処理しなければならないコンテキストも長くなります」と、ヴィニャルズ氏は記者会見で述べた。「私たちは、非常に大規模な方法で、長いコンテキストを解き放ちました。」

大きな文脈

モデルのコンテキスト、またはコンテキストウィンドウとは、モデルが出力(追加テキストなど)を生成する前に考慮する入力データ(例:テキスト)を指します。「2020年の米国大統領選挙の勝者は誰ですか?」といったシンプルな質問もコンテキストとして機能します。映画の脚本、メール、電子書籍などもコンテキストとして機能します。

コンテキストウィンドウが狭いモデルは、ごく最近の会話の内容さえも「忘れる」傾向があり、話題から逸れてしまうことがよくあります。これは往々にして問題のある形で起こります。しかし、コンテキストウィンドウが広いモデルでは必ずしもそうではありません。加えて、大きなコンテキストを持つモデルは、取り込むデータの物語の流れをより適切に把握し、より文脈に富んだ応答を生成できます(少なくとも仮説的には)。

異常に大きなコンテキスト ウィンドウを備えたモデルに対する他の試みや実験も行われてきました。

AIスタートアップのMagicは昨年夏、500万トークンのコンテキストウィンドウを持つ大規模言語モデル(LLM)を開発したと発表した。昨年発表された2本の論文では、100万トークン、あるいはそれ以上の規模まで拡張可能なモデルアーキテクチャが詳述されている。(「トークン」とは、生のデータを細分化したもので、「fantastic」という単語の「fan」「tas」「tic」といった音節のことだ。)そして最近、Meta、MIT、カーネギーメロン大学の科学者グループが、モデルのコンテキストウィンドウのサイズに関する制約を完全に取り除く技術を開発した。

しかし、プライベートプレビューが商用利用可能とみなされる場合、Google は、これまでのリーダーである Anthropic の 200,000 トークンのコンテキストウィンドウを上回り、このサイズのコンテキストウィンドウを備えたモデルを商用利用可能にしたのは初めてです。

Google Gemini 1.5 プロ
画像クレジット: Google

Gemini 1.5 Pro の最大コンテキスト ウィンドウは 100 万トークンで、より広く利用可能なモデルのバージョンでは OpenAI の GPT-4 Turbo と同じ 128,000 トークンのコンテキスト ウィンドウがあります。

では、100万トークンのコンテキストウィンドウで何ができるのでしょうか?Googleは、コードライブラリ全体の分析、契約書などの長文文書の「推論」、チャットボットとの長時間の会話、動画コンテンツの分析・比較など、多くのことを実現できると約束しています。

説明会中、Google は 100 万トークンのコンテキスト ウィンドウが有効になっている Gemini 1.5 Pro の録画済みデモを 2 つ披露しました。

最初のテストでは、デモンストレーターはジェミニ1.5 Proに、約402ページに及ぶアポロ11号の月面着陸に関する放送のトランスクリプトからジョークを含む引用文を検索させ、次に鉛筆スケッチに似たシーンを見つけさせました。2つ目のテストでは、デモンストレーターはモデルに、バスター・キートン主演の映画「シャーロック・ジュニア」のシーンを、説明文と別のスケッチから検索させました。

Google Gemini 1.5 プロ
画像クレジット: Google

Gemini 1.5 Proは要求されたすべてのタスクを正常に完了しましたが、特に高速ではありませんでした。各タスクの処理には約20秒から1分かかり、これは例えば平均的なChatGPTクエリよりもはるかに長い時間でした。

Google Gemini 1.5 プロ
画像クレジット: Google

ヴィニャルズ氏によると、モデルの最適化に伴いレイテンシーは改善されるという。同社は既に、1000万トークンのコンテキストウィンドウを備えたGemini 1.5 Proのバージョンをテストしている。

「レイテンシーの問題は、現在最適化に取り組んでおり、まだ実験段階、研究段階です」と彼は述べた。「ですから、これらの問題は他のモデルと同様に存在していると言えるでしょう。」

私自身は、これほどのレイテンシーが多くの人にとって魅力的かどうか、ましてや有料顧客にとって魅力的かどうか、確信が持てません。動画全体を検索するのにも数分待たされるのは、快適とは言えませんし、短期的にはスケーラブルとは言えません。それに、チャットボットの会話やコードベースの分析といった他のアプリケーションで、レイテンシーがどう影響するのかも懸念しています。Vinyals氏は何も言及していませんが、それだけでは安心できません。

より楽観的な同僚のフレデリック・ラルディノワは、全体的な時間の節約が、指をくねらせる手間をかけるだけの価値があるかもしれないと指摘しました。しかし、それはユースケースに大きく依存すると思います。番組の筋書きを拾い出すには?おそらく無理でしょう。しかし、ぼんやりとしか覚えていない映画のシーンから、適切なスクリーンショットを見つけるには?おそらく無理でしょう。

その他の改善点

拡張されたコンテキスト ウィンドウ以外にも、Gemini 1.5 Pro では、その他の生活の質を向上させるアップグレードも提供されます。

Googleは、Gemini 1.5 Proは、より小規模で専門化された「エキスパート」モデルで構成された新しいアーキテクチャのおかげで、品質の点でGoogleの主力GenAIモデルであるGemini Ultraの現行バージョンと「同等」であると主張しています。Gemini 1.5 Proは基本的に、タスクを複数のサブタスクに分割し、適切なエキスパートモデルに委任します。そして、独自の予測に基づいてどのタスクを委任するかを決定します。

MoEは目新しいものではなく、何らかの形で何年も前から存在していました。しかし、その効率性と柔軟性により、モデルベンダーの間でますます人気が高まっています(Microsoftの言語翻訳サービスを支えるモデルを参照)。

さて、「同等の品質」というのは少々曖昧な表現です。GenAIモデル、特にマルチモーダルモデルの品質は定量化が難しく、モデルが報道関係者以外が閲覧できないプライベートプレビューで公開されている場合はなおさらです。ちなみに、Googleは、Gemini 1.5 Proは、同社がLLM開発 に使用しているベンチマークにおいてUltraと「ほぼ同等のレベル」の性能を示し、そのベンチマークの87%でGemini 1.0 Proを上回っていると主張しています。( Gemini 1.0 Proを上回るというハードルは低いことを付け加えておきます。)

価格設定は大きな疑問符です。

Googleによると、プライベートプレビュー期間中は、100万トークンのコンテキストウィンドウを備えたGemini 1.5 Proは無料でご利用いただけます。ただし、近い将来、標準の12万8000コンテキストウィンドウから始まり、最大100万トークンまで拡張可能な価格帯を導入する予定です。

コンテキストウィンドウの拡大は、決して安くはないだろうと想像せざるを得ません。Googleは説明会で価格を明かさなかったことで、人々の懸念を払拭しようとはしませんでした。もし価格がAnthropicと同水準であれば、プロンプトトークン100万個あたり8ドル、生成トークン100万個あたり24ドルになる可能性があります。しかし、もしかしたらもっと安くなるかもしれません。もっと奇妙なことが起きていることもあるのですから!どうなるかは、今後の展開を見守るしかありません。

Geminiファミリーの他のモデル、特にGemini Ultraへの影響についても疑問に思います。UltraモデルのアップグレードはProモデルのアップグレードとほぼ同時期に行われるのでしょうか?それとも、今のように、GoogleがGeminiポートフォリオの最高級モデルとして売り出しているUltraモデルよりもProモデルの性能が優れているという、厄介な時期が今後も続くのでしょうか?

寛容な気持ちがあるなら、これは初期の問題だと片付けておけ。そうでないなら、ありのままに言ってくれ。「本当に混乱している」と。