Google DeepMind は、汎用 AI エージェントのトレーニングに使用できる最新の基礎世界モデルである Genie 3 を公開しました。AI ラボによると、この機能は「人工汎用知能」、つまり人間のような知能への道の重要な足がかりとなるとのことです。
「Genie 3は、リアルタイムでインタラクティブな汎用世界モデルとしては世界初です」と、DeepMindの研究ディレクターであるシュロミ・フルクター氏は記者会見で述べた。「これは、従来の狭い世界モデルを凌駕するものです。特定の環境に限定されるものではありません。写真のようにリアルな世界から想像上の世界まで、そしてその中間にあるあらゆる世界を生成できます。」
Genie 3 はまだ研究プレビューの段階で一般公開されていませんが、前身の Genie 2 (エージェントの新しい環境を生成できる) と DeepMind の最新のビデオ生成モデル Veo 3 (物理学を深く理解していると言われている) の両方を基に構築されています。

Genie 3は、シンプルなテキストプロンプトを入力するだけで、720p解像度、24フレーム/秒で数分間のインタラクティブな3D環境を生成できます。これは、Genie 2の10~20秒から大幅に向上した数値です。このモデルには、「プロンプト可能なワールドイベント」、つまりプロンプトを用いて生成されたワールドを変化させる機能も搭載されています。
おそらく最も重要なのは、モデルが以前に生成したものを記憶できるため、Genie 3 のシミュレーションが時間の経過とともに物理的に一貫性を保つことです。DeepMind によると、研究者がモデルに明示的にプログラムしたわけではない機能です。
フルクター氏は、Genie 3 は教育体験、ゲーム、または創造的なコンセプトのプロトタイプ作成に影響を与えるが、その真の可能性は汎用タスクのエージェントのトレーニングに現れるだろうと述べ、それが AGI の実現に不可欠だと指摘した。
「世界モデルはAGIへの道の鍵となると考えています。特に、現実世界のシナリオをシミュレートすることが特に難しい具現化されたエージェントにとってはそうです」とディープマインドのオープンエンド性チームの研究科学者、ジャック・パーカー=ホルダー氏は説明会で述べた。
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日

Genie 3は、このボトルネックを解決するために設計されたとされている。Veoと同様に、Genie 3はハードコードされた物理エンジンに依存しない。DeepMindによると、Genie 3は、生成したデータを記憶し、長期間にわたって推論することで、世界の仕組み(物体がどのように動き、落下し、相互作用するか)を自ら学習する。
「このモデルは自己回帰型で、一度に1フレームずつ生成します」と、フルクター氏はTechCrunchのインタビューで語った。「次に何が起こるかを判断するために、以前に生成されたものを振り返る必要があります。これがこのアーキテクチャの重要な部分です。」
同社によれば、その記憶は Genie 3 のシミュレーション世界の一貫性に役立ち、その結果、人間がテーブルの端でぐらついているガラスが落ちそうであることや、落下物を避けるためにしゃがむべきことを理解するのと同じように、物理法則を理解できるようになるという。
注目すべきことに、DeepMind によれば、このモデルには AI エージェントを限界まで追い込む可能性もあり、現実世界で人間が学習するのと同じように、エージェント自身の経験から学習させることもできるという。
一例として、DeepMindは、ジェネラリスト型Scalable Instructable Multiworld Agent(SIMA)の最新バージョンを用いたGenie 3のテストを公開し、一連の目標達成を指示しました。倉庫の設定では、エージェントに「明るい緑色のゴミ圧縮機に近づく」や「荷物が積まれた赤いフォークリフトまで歩く」といったタスクを実行させました。
「3つのケース全てにおいて、SIMAエージェントは目標を達成できます」とパーカー=ホルダー氏は述べた。「エージェントからのアクションを受け取るだけです。つまり、エージェントは目標を受け取り、その周囲のシミュレートされた世界を見て、その世界の中でアクションを実行します。Genie 3は前向きにシミュレーションを行いますが、それが達成できるのは、Genie 3が一貫性を保っているからです。」

とはいえ、Genie 3には限界もあります。例えば、研究者たちはGenie 3が物理法則を理解できると主張していますが、スキーヤーが山を駆け下りるデモでは、スキーヤーに対する雪の動きが反映されていませんでした。
さらに、エージェントが実行できるアクションの範囲は限られています。例えば、プロンプト可能なワールドイベントは環境への幅広い介入を可能にしますが、必ずしもエージェント自身が実行するわけではありません。また、共有環境における複数の独立したエージェント間の複雑な相互作用を正確にモデル化することは依然として困難です。
また、適切なトレーニングには数時間必要であるにもかかわらず、Genie 3 は数分間の継続的なインタラクションしかサポートできません。
それでも、このモデルは、エージェントに入力への反応にとどまらず、計画、探索、不確実性の探求、試行錯誤による改善などを教えるための大きな一歩を示しています。これは、汎用知能へと向かうための鍵であると多くの人が言うような、自発的で具体化された学習の一種です。
「具現化されたエージェントが現実世界で実際に斬新な行動をとることができる37手目の瞬間はまだ来ていない」とパーカー=ホルダー氏は述べた。これは、ディープマインドのAIエージェントAlphaGoと世界チャンピオンのイ・セドルが2016年に対戦した囲碁の伝説的な瞬間を指している。この試合でAlphaGoは型破りで見事な手を打ち、人間の理解を超えた新しい戦略を発見するAIの能力を象徴することになった。
「しかし今、私たちは新たな時代を導く可能性がある」と彼は語った。