Google DeepMindは、ビデオゲームをプレイするAIをあなたの協力プレイの仲間として訓練します

Google DeepMindは、ビデオゲームをプレイするAIをあなたの協力プレイの仲間として訓練します

ゲームをプレイするAIモデルは数十年前から存在していますが、一般的には1つのゲームに特化し、常に勝利を目指してプレイしています。Google DeepMindの研究者たちは、最新のAIモデルで異なる目標を掲げています。それは、人間のように複数の3Dゲームをプレイすることを学習するだけでなく、ユーザーの口頭指示を理解し、それに従うよう最大限に努力するモデルです。

もちろん、このようなことを実行できる「AI」やコンピューター キャラクターも存在しますが、それらはむしろゲームの機能のようなものです。つまり、正式なゲーム内コマンドを使用して間接的に制御できる NPC です。

DeepMindのSIMA(スケーラブルで指示可能なマルチワールドエージェント)は、ゲームの内部コードやルールには一切アクセスできません。その代わりに、人間によるゲームプレイを映した何時間にも及ぶ動画でトレーニングされました。このデータとデータラベラーによって提供されるアノテーションから、モデルは特定の視覚表現をアクション、オブジェクト、インタラクションと関連付けることを学習します。また、プレイヤーがゲーム内で互いに指示を出す動画も録画しました。

例えば、画面上のピクセルが特定のパターンで動く様子から、それが「前進」という動作だと学習したり、キャラクターがドアのような物体に近づいてドアノブのような物体を使うと「ドア」を「開ける」動作だと学習したりするかもしれません。こうした単純なタスクやイベントは、数秒かかるものの、単にキーを押したり何かを特定したりする以上の意味を持ちます。

トレーニングビデオは、『Valheim』から『Goat Simulator 3』まで、複数のゲームで撮影されたもので、これらのゲームの開発元はソフトウェアの使用に関与し、同意を得ていた。研究者たちは報道陣との電話会議で、主な目標の一つは、AIに特定のゲームセットをプレイするように訓練することで、そのAIがまだプレイしていない他のゲームもプレイできるようになるか、つまり「汎化」と呼ばれるプロセスを確認することだと述べた。

答えはイエスです。ただし、いくつか注意点があります。複数のゲームで訓練されたAIエージェントは、これまでプレイしたことのないゲームでより良いパフォーマンスを発揮しました。しかしもちろん、多くのゲームには、最も準備の整ったAIでさえも難解にしてしまうような、独特で独特なメカニズムや用語が含まれています。しかし、モデルがそれらを学習するのを妨げるものは、訓練データの不足以外にはありません。

その理由の一つは、ゲーム内には専門用語が溢れているものの、プレイヤーがゲーム世界に実際に影響を与える「動詞」は限られているからです。例えば、片流れ屋根を組み立てたり、テントを張ったり、魔法のシェルターを召喚したりする時、実際には「家を建てている」のですよね?ですから、エージェントが現在認識している数十種類のプリミティブを並べたこのマップは、じっくりと眺めるだけでも実に興味深いものです。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

SIMAが認識し、実行または組み合わせることができる数十個のアクションのマップ。画像クレジット: Google DeepMind

研究者たちの野望は、エージェントベースの AI を根本的に進歩させることに加え、現在の堅苦しくハードコードされたゲーム仲間よりも自然なゲーム仲間を作り出すことです。

「対戦相手は超人的なエージェントではなく、協力的で指示を出すことのできるSIMAプレイヤーを傍らに置けるのです」とプロジェクトのリーダーの一人、ティム・ハーレー氏は語る。

プレイ中はゲーム画面のピクセルしか見えないため、人間とほぼ同じように操作方法を学習する必要がありますが、これはまた、適応して新たな行動を生み出すこともできることを意味します。

エージェント型 AI を作成する一般的な方法であるシミュレーター アプローチと比べて、これがどう優れているのか興味があるかもしれません。シミュレーター アプローチでは、ほとんど監督されていないモデルが、3D のシミュレーションの世界で、実時間よりもはるかに高速に実行され、ルールを直感的に学習し、それに基づいて動作を設計できます。注釈付け作業はほとんど必要ありません。

「従来のシミュレータベースのエージェントトレーニングでは、トレーニングに強化学習を使用しています。これは、ゲームまたは環境がエージェントが学習するための『報酬』信号を提供することを必要とします。たとえば、囲碁やスタークラフトの場合は勝ち負け、Atariの場合は『スコア』などです」とハーレー氏はTechCrunchに語り、このアプローチがこれらのゲームに使用され、驚異的な結果を生み出したと指摘した。

DeepMindのAgent57 AIエージェントは、57種類のAtariゲームで人間のプレイヤーに勝つことができる。

「私たちが使用しているゲーム、例えばパートナーの商用ゲームでは、そのような報酬信号にアクセスできません」と彼は続けた。「さらに、私たちが関心を持っているのは、自由記述のテキストで記述された多様なタスクを実行できるエージェントです。それぞれのゲームが、考えられる目標ごとに『報酬』信号を評価するのは現実的ではありません。その代わりに、テキストで与えられた目標に対して、人間の行動を模倣して学習するエージェントを訓練します。」

言い換えれば、厳格な報酬構造を持つことで、エージェントの追求対象が制限される可能性がある。スコアによって導かれる場合、エージェントはその価値を最大化しない行動を試みることは決してないからだ。しかし、より抽象的なもの、例えば自身の行動が過去に成功した行動にどれだけ近いかといったものを重視するなら、訓練データが何らかの形でそれを示している限り、エージェントはほぼ何でも「したい」ように訓練することができる。

他の企業も、こうしたオープンエンドなコラボレーションと創造に取り組んでいます。例えば、NPCとの会話は、LLMタイプのチャットボットを活用する機会として真剣に検討されています。また、エージェントに関する非常に興味深い研究では、AIによって単純な即興の行動やインタラクションがシミュレーションされ、追跡されています。

研究者たちはAIで小さな仮想都市を作った(そしてそれは非常に健全だった)

もちろん、MarioGPT のような無限のゲームへの実験もありますが、それはまったく別の問題です。