DeepMindは、AIがゲームに真に熟達できるだけでなく、ルールを知らなくてもそれが可能であることを示すことを使命としています。同社の最新AIエージェント「MuZero」は、囲碁、チェス、将棋といった視覚的に単純だが戦略が複雑なゲームだけでなく、視覚的に複雑なAtariゲームでもこの目標を達成しています。
DeepMindの初期のAIの成功は、少なくとも部分的には、ゲームにおける可能な行動を表す膨大な決定木を非常に効率的に処理できたことによるものでした。囲碁やチェスでは、これらの決定木は、駒がどこに動けるか、この駒があれをすると何が起こるかなど、非常に具体的なルールによって規定されています。
囲碁の世界チャンピオンを破ったAI、AlphaGoはこれらのルールを知り、人間同士の対局や人間との対局を研究する際にそれらを記憶(あるいはRAMに記憶)し、一連のベストプラクティスと戦略を構築しました。後継機であるAlphaGo Zeroは、人間のデータを使用せず、自身とのみ対戦することでこれを実現しました。AlphaZeroは2018年に囲碁、チェス、将棋でも同様のことを行い、これらすべてのゲームを巧みにプレイできる単一のAIモデルを構築しました。
しかし、これらのケースでは、AIはゲームに関する不変かつ既知のルールを提示され、戦略を構築するための枠組みを構築しました。考えてみてください。ポーンがクイーンになる可能性があると聞けば、最初からそれを想定して計画を立てますが、実際にそれを確かめなければならないとしたら、全く異なる戦略を立てるかもしれません。

同社が新たな研究に関するブログ記事で説明しているように、AIに事前にルールを教えてしまうと、「通常は複雑で単純なルールにまとめるのが難しい、厄介な現実世界の問題にルールを適用することが難しくなる」という。
同社の最新開発品であるMuZeroは、前述のゲームだけでなく、様々なAtariゲームをプレイできるだけでなく、ルールブックを一切提供されない。最終モデルは、人間のデータなしで自力で実験するだけでなく、最も基本的なルールさえ教えられることなく、これらすべてのゲームをプレイできるようになった。
MuZeroは、ルールに頼って最善のシナリオを見つけるのではなく(そもそもできないので)、ゲーム環境のあらゆる側面を考慮し、それが重要かどうかを自ら観察して学習します。何百万回ものゲームを通して、ルールだけでなく、ポジションの一般的な価値、先手を打つための一般的な方針、そして後から自分の行動を評価する方法も学習します。
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日
この後者の能力は、自身の失敗から学び、ゲームを巻き戻してやり直し、立場とポリシーの価値をさらに磨くさまざまなアプローチを試すのに役立ちます。
DeepMindが開発したAgent57は、57種類のAtariゲームで優れた成績を収めました。MuZeroは、Agent57の優れたAI技術とAlphaZeroの優れた技術を組み合わせたものです。MuZeroは、ゲーム環境全体をモデル化するのではなく、意思決定に影響を与える部分に焦点を当てている点でAgent57と異なり、AlphaZeroと異なるのは、ルールモデルを独自の実験と直接的な知識のみに基づいて構築している点です。
DeepMindのAgent57 AIエージェントは、57種類のAtariゲームで人間のプレイヤーに勝つことができる。
ゲーム世界を理解することで、MuZeroは、多くのAtariゲームのように部分的にランダムで視覚的に複雑なゲーム世界であっても、効果的に行動を計画することができます。これにより、MuZeroは現実世界と安全かつ知的にインタラクトし、細部まで指示されることなく周囲の世界を理解していくAIに近づきます(ただし、「人間を押しつぶさない」など、いくつかのルールは明確に定められる可能性が高いでしょう)。研究者の一人がBBCに語ったように、研究チームは既にMuZeroが動画圧縮をどのように改善できるかを実験中です。これは明らかに、Ms. Pac-Manとは全く異なる問題です。
MuZero の詳細は本日、Nature 誌に掲載されました。
デヴィン・コールドウェイはシアトルを拠点とする作家兼写真家です。
彼の個人ウェブサイトは coldewey.cc です。
バイオを見る