レベルアップ:DeepMindのAlphaStarがStarCraft IIでグランドマスターレベルを達成

レベルアップ:DeepMindのAlphaStarがStarCraft IIでグランドマスターレベルを達成

システムをゲーム化する

チェスや囲碁は忘れてください。AI の新たなフロンティアは、マルチプレイヤー ビデオ ゲームです。

アルファスター(プロトス、緑)が対空ユニット(フェニックスとアーコン)の組み合わせでザーグの飛行ユニットに対抗している。クレジット:DeepMind

アルファスター(プロトス、緑)が対空ユニット(フェニックスとアーコン)の組み合わせでザーグの飛行ユニットに対抗している。クレジット:DeepMind

1月にGoogleのDeepMindチームは、自社のAI「AlphaStar」がStarCraftで2人のトッププロプレイヤーに勝利したと発表しました。しかし、当時私たちが主張したように、それは必ずしも公平な戦いではありませんでした。しかし今、AlphaStarはパフォーマンスを大幅に向上させ、人間のプレイヤーと同じインターフェースを使用してStarCraft IIでグランドマスターの地位を獲得しました。チームはこの成果をNature誌に掲載した論文で発表しました。

「これは夢の実現です」と、20年前に熱狂的なスタークラフトプレイヤーだったDeepMindの共著者オリオル・ヴィニャルズ氏は語った。「AlphaStarはニューラルネットワークと汎用学習アルゴリズムのみでグランドマスターレベルを達成しました。これは、私がルールベースシステムを用いたスタークラフトAIを研究していた10年前には想像もできなかったことです。」

昨年末、我々はDeepMindのAlphaGoの直系の後継機であるAlphaZeroの最新の成果について報告した。AlphaGoは2016年に囲碁の現世界チャンピオン(人間)であるイ・セドルを破り、世界中で話題になった。AlphaGoは昨年大幅なアップグレードを受け、人間の介入なしに勝利戦略を自ら学習できるようになった。AlphaZeroは何度も自分自身と対戦することで、わずか3日間で囲碁をゼロからプレイできるよう自らをトレーニングし、オリジナルのAlphaGoを100対0で圧勝した。AlphaZeroが受け取った唯一の入力は、ゲームの基本ルールだった。その後AlphaZeroは、人間の介入なしに、わずか3日間で3つの異なるボードゲーム(チェス、囲碁、将棋)を自ら学習した。

その秘密は「強化学習」です。これは、プログラムが何百万回も自らゲームをプレイすることで経験から学習する仕組みです。これが機能するのは、AlphaZeroが最も有用な行動(つまり、勝利戦略の考案)に対して報酬を得るためです。AIは、最も可能性の高い次の一手を検討し、それぞれの勝率を計算することでこれを実現します。最新バージョンでは、深層強化学習(多層ニューラルネットワーク)と汎用モンテカルロ木探索法を組み合わせています。チェスのグランドマスター、ガルリ・カスパロフは昨年、Science誌の論説で次のように述べています。「これまでのチェスマシンが人間の指示や知識を猛スピードで処理するのに対し、AlphaZeroは独自の知識を生成します。」

AlphaStar (Zerg、赤) は、敵が AlphaStar の基地の近くに基地の一部を建設した初期の攻撃を防御し、堅牢性を示しています。

クレジット: DeepMind

AlphaStar(Zerg、赤)は、敵がAlphaStarの基地の近くに基地の一部を建設した際の序盤の攻撃を防御し、堅牢性を発揮している。クレジット:DeepMind

AlphaZeroの成功により、DeepMindの焦点は新たなAIのフロンティア、つまりポーカーのような部分的(不完全)情報ゲームや、Starcraft IIのようなマルチプレイヤービデオゲームへと移りました。Starcraft IIも不完全情報ゲームであり、じゃんけんのように単一の最善の戦略というものはありません。広大な行動空間における長期的な計画能力とリアルタイムの意思決定が求められます。ゲームプレイマップはプレイヤーから隠されているだけでなく、数百ものユニット(ゲームに影響を与えるために構築できるモバイルゲームのピース)と建物(ユニットの作成やユニットを強化するテクノロジーに使用される)を同時に制御する必要があります。ArsのTim Lee(熱心なStarCraftプレイヤー)は1月に次のように書いています。

スタークラフトでは、プレイヤーは資源を集め、数十の軍事ユニットを編成し、それらを使って敵を倒す必要があります。スタークラフトはAIにとって特に難しいゲームです。プレイヤーは数分間のゲームプレイを通して長期的な計画を実行し、敵の反撃に直面した際に即座に調整する必要があるからです。DeepMindによると、同社の取り組み以前には、最高の人間プレイヤーに匹敵するスタークラフトAIを設計した者は誰もいなかったそうです。

AlphaStarの初期バージョンも、深層強化学習を用いて人間の戦略を模倣するようプログラムを学習させていました。その時点で、AIはエリートレベルのプレイヤーを約95%の確率で倒せるほどの能力を備えていました。その後、DeepMindチームはそのAIの亜種を作成し、それぞれ異なるプレイスタイルを採用し、仮想StarCraftリーグに参加させました。これにより、エージェントは自身の失敗から学び、それに応じて戦略を進化させることができました。そしてDeepMindは最強のエージェント5名を選び、2人のプロプレイヤー、Dario "TLO" WunschとGrzegorz "MaNa" Kominczと対戦させました。AIは10試合すべてで人間の挑戦者を破りました。

とはいえ、完全に公平な戦いとは言えなかった。「公平な競争を実現する究極の方法は、AlphaStarに人間のプレイヤーと全く同じユーザーインターフェースを使用させることだ」とリー氏は1月に記している。「もちろんインターフェースは仮想化できるが、ゲームは人間のプレイヤーと同じ生のピクセル入力を受け取り、マウスの動きとキー入力のシーケンスを使って指示を入力する必要がある。ただし、入力は人間の手が到達できる速度に制限される。これが、AlphaStarがソフトウェアに不公平な優位性を与えていないことを完全に確信できる唯一の方法だ」

人間のように遊ぶ

AlphaStarの最新バージョンは、これらの問題解決に大きく貢献しています。深層強化学習とマルチエージェント学習、そしてゲームデータから直接得られる模倣学習を組み合わせ、バーチャルリーグを通してさらに磨きをかけています。Vinyals氏とDeepMindの共著者であるWojciech Czarnecki氏のブログ投稿によると、改良された新しいAlphaStarは、人間がプレイするのと同じ制約を受け、Battle.netで「人間のプレイヤーと同じマップと条件」でプレイしました。

AlphaStar (Zerg、緑色) が終盤のハイテク ユニットを使用して最終戦闘に勝利しました。

クレジット: DeepMind

AlphaStar(Zerg、緑)が終盤戦のハイテクユニットを駆使して最終戦を勝利。クレジット:DeepMind

「リーグの重要な洞察は、勝つためにプレーするだけでは不十分だということです」と、ヴィニャルズ氏とツァルネッキ氏は、この最新版AlphaStarの改良点について記しています。「その代わりに、全員を相手に勝つことを目標とするメインエージェントと、『チームのために犠牲を払う』エクスプロイターエージェントの両方が必要です。エクスプロイターエージェントは、自身の勝率を最大化するのではなく、メインエージェントの欠点を露呈させることで、メインエージェントの成長を支援することに重点を置いています。このトレーニング方法を用いることで、現在のリーグは複雑なStarCraft IIの戦略をエンドツーエンドで学習します。これは、様々な手法とアルゴリズムで生成されたエージェントをつなぎ合わせていた以前のリーグとは対照的です。」

AIは、 Starcraft IIに登場する3つの種族、プロトス、テラン、ザーグを操作したり、敵としてプレイしたりできるようになりました(以前のバージョンでは、プロトス対プロトスのみでした)。DeepMindは、一連のオンラインゲームでAlphaStarを人間のプレイヤーと対戦させました。その結果、このAIはStarcraft IIの3つの種族すべてでグランドマスターレベルと評価され、公式ランキングの人間プレイヤーの99.8%を上回りました。これは、ゲームの簡易版を使用せずに、人気のプロeスポーツでこの地位を達成した初のAIです。これは、こうした汎用機械学習アルゴリズムが、パーソナルアシスタント、自動運転車、ロボット工学など、不完全な情報に基づいたリアルタイムの意思決定を必要とする複雑な現実世界の問題を解決するために活用できる可能性を強く示唆しています。

「DeepMindでは、オープンエンド学習の可能性と限界を理解することに関心を持っています。オープンエンド学習は、複雑な現実世界の領域に対応できる堅牢で柔軟なエージェントの開発を可能にします」と、Vinyals氏とCzarnecki氏は記している。「StarCraftのようなゲームは、プレイヤーが限られた情報を用いて、複数のレベルと時間スケールに影響を及ぼす動的で難しい意思決定を行う必要があるため、こうしたアプローチを進化させるための優れた訓練の場となります。」

そして今回は、公平な戦いだったようだ。「AlphaStarのゲームプレイは素晴らしいと思いました」とヴンシュ氏は最新版について語った。「このシステムは戦略的位置を非常に巧みに評価し、敵と交戦するタイミングと離脱するタイミングを正確に把握しています。AlphaStarは優れた精密な制御能力を備えていますが、超人的な操作感はありません。ましてや、人間が理論上到達できないレベルではありません。全体的に見て、非常に公平な感覚で、『本物の』StarCraftをプレイしているような感覚です。」

DOI: Nature、2019. 10.1038/s41586-019-1724-z (DOI について)。

リスト画像: DeepMind

ジェニファー・ウエレットの写真

ジェニファーはArs Technicaのシニアライターです。特に科学と文化の融合に焦点を当て、物理学や関連する学際的なトピックから、お気に入りの映画やテレビシリーズまで、あらゆるテーマを取り上げています。ジェニファーは、物理学者の夫ショーン・M・キャロルと2匹の猫、アリエルとキャリバンと共にボルチモアに住んでいます。

124件のコメント

  1. 最も読まれている記事の最初の記事のリスト画像:Apple iPhone 17 Proレビュー:カメラ目線で購入、バッテリー目線で購入