AI の「世界モデル」とは何ですか? また、それがなぜ重要なのですか?

AI の「世界モデル」とは何ですか? また、それがなぜ重要なのですか?

世界モデル (世界シミュレーターとも呼ばれる) は、AI の次なる大物として一部の人々から注目されています。

AIのパイオニア、フェイフェイ・リー氏のWorld Labsは「大規模世界モデル」の構築に2億3000万ドルを調達し、DeepMindはOpenAIの動画生成ツール「Sora」の開発者の1人を雇用して「世界シミュレーター」の開発に携わらせた。(Soraは月曜日にリリースされた。ここでは初期段階の印象を紹介する。)

しかし、これらは一体何なのでしょうか?

世界モデルは、人間が自然に発達させる世界のメンタルモデルからインスピレーションを得ています。私たちの脳は、感覚から得た抽象的な表象を、周囲の世界についてのより具体的な理解へと形作ります。AIが「モデル」という言葉を採用するずっと前から、私たちは「モデル」と呼んでいたものを生み出してきました。これらのモデルに基づいて脳が行う予測は、私たちが世界をどのように認識するかに影響を与えます。

AI研究者のデイビッド・ハ氏とユルゲン・シュミットフーバー氏の論文では、野球の打者を例に挙げています。打者にはバットの振り方を決める時間が数ミリ秒しかありません。これは、視覚信号が脳に届く時間よりも短いのです。ハ氏とシュミットフーバー氏によると、打者が時速100マイルの速球を打てる理由は、ボールの飛ぶ方向を本能的に予測できるからだそうです。

「プロ選手にとって、これはすべて無意識のうちに起こる」と研究者2人は記している。「彼らの筋肉は、内部モデルの予測に沿って、反射的に適切なタイミングと場所でバットを振ります。彼らは、将来のシナリオを意識的に展開して計画を立てる必要がなく、未来の予測に基づいて素早く行動できるのです。」

世界モデルのこうした潜在意識の推論の側面こそが、人間レベルの知能の前提条件であると考える人もいます。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

世界のモデリング

この概念は何十年も前から存在していましたが、世界モデルは、生成ビデオの分野での有望な応用もあり、最近人気が高まっています。

AIが生成した動画のほとんどは、たとえ全てではないにせよ、不気味の谷現象に陥っています。長時間見ていると、手足がねじれたり、互いに融合したりするなど、 奇妙な現象が起こります。

長年の動画で学習した生成モデルは、バスケットボールがバウンドすると正確に予測できるかもしれませんが、実際にはなぜバウンドするのかは分かりません。これは、言語モデルが単語やフレーズの背後にある概念を実際には理解していないのと同じです。しかし、バスケットボールがなぜそのようにバウンドするのかを少しでも理解している世界モデルは、バスケットボールがそのようにバウンドする様子をより正確に表現できるでしょう。

このような洞察を可能にするために、世界モデルは、写真、音声、ビデオ、テキストなどのさまざまなデータに基づいてトレーニングされ、世界の仕組みについての内部表現と、アクションの結果を推論する能力を作成することが目的です。

滑走路 Gen-3
AIスタートアップ企業Runwayの第3世代動画生成モデルのサンプル。画像クレジット: Runway

「視聴者は、自分が見ている世界が現実世界と同じように振舞うことを期待しています」と、Snapchatの元AI責任者で、動画生成モデルを開発するHiggsfieldのCEOを務めるアレックス・マシュラボフ氏は述べた。「羽根が金床の重みで落ちたり、ボウリングのボールが何百フィートも空高く舞い上がったりしたら、違和感があり、視聴者はその瞬間から離れてしまいます。強力な世界モデルがあれば、クリエイターが各オブジェクトの動きを定義する代わりに、モデルがそれを理解してくれるのです。これは面倒で煩雑で、時間の無駄です。」

しかし、より優れた動画生成は、世界モデルの氷山の一角に過ぎません。MetaのチーフAIサイエンティスト、ヤン・ルカン氏をはじめとする研究者たちは、これらのモデルが将来、デジタル領域と現実世界の両方で高度な予測と計画に活用されるようになると述べています。

今年初めの講演で、ルカン氏は世界モデルが推論を通じて望ましい目標達成にどのように役立つかを説明しました。「世界」の基本表現(例えば、汚い部屋のビデオ)を持つモデルは、目標(きれいな部屋)を与えられると、その目標を達成するための一連の行動(掃除機をかけて掃く、食器を洗う、ゴミ箱を空にする)を導き出すことができます。これは、モデルがパターンを観察したからではなく、より深いレベルで、汚い状態からきれいな状態へ移行する方法を知っているからです。

「世界を理解する機械が必要です。記憶力があり、直感力があり、常識を持ち、人間と同じレベルで推論し、計画を立てられる機械です」とルカン氏は述べた。「熱心な人たちから聞いたことがあるかもしれませんが、現在のAIシステムはこれらを全く実現できていません。」

LeCun 氏は、彼が思い描く世界モデルの実現には少なくとも 10 年かかると見積もっているが、今日の世界モデルは基本的な物理シミュレーターとして有望性を示している。

OpenAI ソラ マインクラフト
ソラがMinecraftのプレイヤーを操作し、世界をレンダリングしている様子。画像クレジット: OpenAI

OpenAIはブログで、世界モデルと位置づけるSoraは、画家がキャンバスに筆の跡を残すような動作をシミュレートできると述べています。Soraのようなモデル、そしてSora自体は、ビデオゲームを効果的にシミュレートすることもできます。例えば、SoraはMinecraftのようなUIとゲーム世界をレンダリングできます。

将来の世界モデルは、ゲームやバーチャル写真などのためにオンデマンドで3D世界を生成できるようになるかもしれない、とワールドラボの共同設立者であるジャスティン・ジョンソン氏はa16zポッドキャストのエピソードで語った。

「仮想的でインタラクティブな世界を構築する能力は既にありますが、それには数億ドルもの費用と膨大な開発期間がかかります」とジョンソン氏は述べた。「[ワールドモデル]を使えば、単なる画像やクリップではなく、完全にシミュレーションされた、生き生きとしたインタラクティブな3D世界を構築できるようになります。」

高いハードル

このコンセプトは魅力的だが、多くの技術的な課題が立ちはだかっている。

世界モデルの学習と実行には、現在生成モデルで使用されている計算能力と比較しても、膨大な計算能力が必要です。最新の言語モデルの一部は最新のスマートフォンで実行できますが、Sora(初期の世界モデルと言えるでしょう)は、特に普及した場合、学習と実行に数千のGPUが必要になります。

他のAIモデルと同様に、ワールドモデルも幻覚を起こし、学習データにバイアスを内在化します。例えば、ヨーロッパの都市の晴天時の動画を主に学習したワールドモデルは、雪に覆われた韓国の都市を理解したり描写したりするのに苦労したり、あるいは単に誤った認識をしてしまう可能性があります。

トレーニングデータの全般的な不足がこれらの問題を悪化させる恐れがあるとマシュラボフ氏は言う。

「特定のタイプや人種の世代の人々を対象としたモデルでは、非常に限界があることがわかりました」と彼は述べた。「世界モデルの学習データは、多様なシナリオをカバーできるほど広範である必要がありますが、同時に、AIがそれらのシナリオのニュアンスを深く理解できるような、非常に具体的なものでなければなりません。」

AIスタートアップ企業RunwayのCEO、クリストバル・ヴァレンズエラ氏は最近の投稿で、データとエンジニアリングの問題により、現在のモデルでは世界の住人(人間や動物など)の行動を正確に捉えることができていないと述べています。「モデルは環境の一貫したマップを生成する必要があり、その環境内を移動し、相互作用する能力も必要になります」とヴァレンズエラ氏は述べています。

OpenAI ソラ
SORAが生成した動画。画像提供: OpenAI

しかし、すべての主要なハードルが克服されれば、世界モデルが AI と現実世界を「より堅牢に」橋渡しできるようになり、仮想世界の生成だけでなく、ロボット工学や AI による意思決定にも飛躍的な進歩をもたらすだろうとマシュラボフ氏は考えている。

さらに、より有能なロボットを生み出すこともできます。

今日のロボットは周囲の世界(あるいは自身の身体)を認識していないため、できることが限られています。マシュラボフ氏は、世界モデルはロボットにその認識を与えることができると述べています ― 少なくともある程度は。

「高度な世界モデルがあれば、AIはどのような状況に置かれても個人的な理解を深め、可能な解決策を推論し始めることができる」と彼は語った。

TechCrunchではAIに特化したニュースレターを配信しています!  毎週水曜日に受信ボックスに配信されますので、こちらからご登録ください。

このストーリーはもともと 2024 年 10 月 28 日に公開され、ソラに関する新たな更新情報を加えて 2024 年 12 月 14 日に更新されました。