Pictionary と Minecraft は AI モデルの創意工夫をテストできるか?

Pictionary と Minecraft は AI モデルの創意工夫をテストできるか?

AIベンチマークの多くは、私たちに多くのことを教えてくれません。暗記で解けるような質問をしたり、大多数のユーザーにとって無関係なトピックを扱ったりするからです。

そのため、一部の AI 愛好家は、AI の問題解決能力をテストする方法としてゲームに注目し始めています。

フリーランスのAI開発者、ポール・カルクラフト氏は、2つのAIモデルがピクショナリーのようなゲームで対戦できるアプリを開発しました。片方のモデルが落書きをすると、もう片方のモデルがその落書きが何を表しているかを推測します。

「これはすごく面白そうで、モデルの性能という観点からも興味深いかもしれないと思いました」と、カルクラフト氏はTechCrunchのインタビューで語った。「それで、曇り空の土曜日に家の中で座って、それをやり遂げたんです」

Calcraftは、イギリスのプログラマー、サイモン・ウィリソンによる同様のプロジェクトに触発されました。このプロジェクトでは、自転車に乗るペリカンのベクター画像をモデルにレンダリングさせるという課題が与えられました。ウィリソンもCalcraftと同様に、モデルに訓練データの内容を超えて「考える」ことを強いるであろう課題を選びました。

LLMピクショナリー
画像クレジット:ポール・カルクラフト

「ゲーム化不可能なベンチマークを設定するのが目的です」とカルクラフト氏は述べた。「特定の回答や、訓練中に以前に見た単純なパターンを記憶するだけでは破れないベンチマークです。」

マインクラフトもこの「ゲーム化不可能」なカテゴリーに入ると、16歳のアドニス・シンは考えている。彼は「マインドクラフト」というオープンツールを使って、マインクラフトのキャラクターをモデルで操作し、マイクロソフトのプロジェクト・マルモに似た構造物の設計能力をテストしている。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

「Minecraftは、モデルのリソースの豊富さをテストし、より多くの主体性を与えていると思います」と彼はTechCrunchに語った。「他のベンチマークほど制限が厳しく、飽和状態にもなっていません。」

ゲームを使ってAIのベンチマークを行うという考えは、何十年も前から存在しています。数学者クロード・シャノンは1949年、チェスのようなゲームは「知的な」ソフトウェアにとって挑戦に値すると主張しました。最近では、アルファベット傘下のDeepMindがPongとBreakoutをプレイできるモデルを開発し、OpenAIはAIをDota 2の試合に出場できるように訓練し、Metaはプロのテキサスホールデムプレイヤーに匹敵するアルゴリズムを設計しました。

しかし、現在では、愛好家たちが大規模言語モデル(LLM)(テキストや画像などを分析できるモデル)をゲームに接続して、ゲームの論理的思考力の程度を調べている点が異なります。

GeminiやClaudeからGPT-4oまで、LLMは数多く存在しますが、それぞれに異なる「雰囲気」があり、まるで異なるかのようです。やり取りごとに「感じ方」が異なり、これは定量化が難しい現象です。

マクベンチ
誤字にご注意ください。Claude 3.6 Sonnetのようなモデルは存在しません。画像クレジット: Adonis Singh

「法学修士課程は、特定の質問の仕方に敏感であることが知られており、一般的に信頼性が低く、予測が難しい」とカルクラフト氏は述べた。

アルバータ大学のAI研究者で教授のマシュー・ガズディアル氏は、テキストベースのベンチマークとは対照的に、ゲームはモデルのパフォーマンスや動作を視覚的かつ直感的に比較する方法を提供すると述べた。

「それぞれのベンチマークは、推論やコミュニケーションといった特定の種類の問題に焦点を当て、現実を異なる形で単純化したものを提供するものと考えることができます」と彼は述べた。「ゲームはAIを使って意思決定を行うもう一つの手段に過ぎず、人々は他のアプローチと同じようにゲームを利用しています。」

生成 AI の歴史に詳しい人なら、Pictionary が生成敵対ネットワーク (GAN) と非常によく似ていることに気づくでしょう。GAN では、作成者モデルが画像を識別モデルに送信し、識別モデルが画像を評価します。

カルクラフト氏は、ピクショナリーは法学修士(LLM)の学生が持つ、形、色、前置詞(例えば「in」と「on」の意味)といった概念を理解する能力を捉えることができると考えている。彼はこのゲームが推論力の信頼できるテストだとまでは言わないが、勝つには戦略と手がかりを理解する能力が必要であり、どちらのモデルも容易ではないと主張した。

「ピクショナリーゲームの、GANに似た、ほぼ敵対的な性質も気に入っています。2つの異なる役割、つまり1人が絵を描き、もう1人が推測するというものです」と彼は言いました。「最も優れた絵を描くのは、最も芸術的なものではなく、他のLLM(より​​高速で、はるかに能力の低いモデルも含む)の聴衆にアイデアを最も明確に伝えられる絵なのです。」

「ピクショナリーはおもちゃの問題であり、すぐに実用的でも現実的でもない」とカルクラフト氏は警告する。「とはいえ、空間理解とマルチモーダル性はAIの発展にとって重要な要素だと私は考えているので、LLMピクショナリーはその道のりにおける小さな、初期の一歩となる可能性がある」

マクベンチ
画像クレジット: Adonis Singh

シン氏は、Minecraft も有用なベンチマークであり、LLM における推論能力を測定できると考えています。「これまでテストしたモデルの結果は、推論関連の事柄に関して私がどれだけそのモデルを信頼しているかと、文字通り完全に一致しています」と彼は言います。

他の人たちはそう確信していません。

キングス・カレッジ・ロンドンのAIを専門とする上級講師マイク・クック氏は、MinecraftがAIのテストベッドとして特に特別なものだとは考えていない。

「Minecraftへの関心の一部は、ゲーム業界以外の人々から来ていると思います。彼らはMinecraftが『現実世界』に似ているため、現実世界の思考や行動とより密接なつながりがあると考えているのかもしれません」とクック氏はTechCrunchに語った。「問題解決の観点から見ると、『フォートナイト』、『スターデューバレー』、『ワールド・オブ・ウォークラフト』といったビデオゲームとそれほど変わりません。ただ、見た目が少し違うだけで、何かを作ったり探索したりするといった日常的なタスクの集合体のように感じられるのです。」

クック氏の指摘によれば、ゲームプレイにおいて最高のAIシステムでさえ、一般的に新しい環境にうまく適応できず、これまで経験したことのない問題を簡単に解決することはできない。例えば、『Minecraft』で優れた能力を持つモデルが、『Doom』を真のスキルでプレイできる可能性は低い。

「AIの観点から見ると、Minecraft の良い点は、報酬シグナルが非常に弱いことと、予測不可能な課題を伴う手続き型の世界にあると思います」とクック氏は続けた。「しかし、他のビデオゲームと比べて、現実世界をそれほど忠実に再現しているわけではありません」

そうなると、LLM が城を建てるのを見るのは本当に魅惑的だ。

TechCrunchではAIに特化したニュースレターを配信しています!  毎週水曜日に受信ボックスに配信されますので、こちらからご登録ください。