高校生がAIモデルにMinecraftのビルドオフを競わせるウェブサイトを構築した

高校生がAIモデルにMinecraftのビルドオフを競わせるウェブサイトを構築した

従来のAIベンチマーク手法が不十分であることが明らかになるにつれ、AI開発者は生成AIモデルの能力を評価するために、より創造的な方法に目を向け始めています。開発者グループの一つが、Microsoft傘下のサンドボックス型ゲーム「Minecraft」です。

Minecraft Benchmark(MC-Bench)というウェブサイトは、AIモデル同士が協力して開発され、Minecraftの作品でプロンプトに回答するAIモデル同士の直接対決を競わせるものです。ユーザーはどのモデルがより優れた結果を出したかを投票で決定し、投票後に初めてどのAIが各Minecraft作品を作成したかを確認できます。

画像クレジット: Minecraft Benchmark (新しいウィンドウで開きます)

MC-Benchを立ち上げた高校2年生のアディ・シンにとって、マインクラフトの価値はゲーム自体ではなく、人々がそのゲームに親しみを感じていることだ。何と言っても、マインクラフトは史上最も売れたビデオゲームなのだから。ゲームをプレイしたことがない人でも、パイナップルのブロック体の表現でどちらがよりリアルに表現されているかを見極めることができるのだ。

「Minecraftのおかげで、AI開発の進捗状況をずっと簡単に把握できるようになりました」とシン氏はTechCrunchに語った。「人々はMinecraftに慣れていて、その見た目や雰囲気にも慣れています。」

MC-Benchは現在、8人のボランティア貢献者をリストアップしています。MC-Benchのウェブサイトによると、Anthropic、Google、OpenAI、Alibabaは、ベンチマークプロンプトを実行するための自社製品の使用をプロジェクトに補助していますが、これら4社は他に提携関係はありません。

「現在はGPT-3時代からどれだけ進歩したかを振り返るために、シンプルなビルドを作成しているところですが、将来的にはより長期的な計画や目標指向のタスクにスケールアップしていくことも考えています」とシン氏は述べた。「ゲームは、現実世界よりも安全で、テスト目的においてもより制御しやすいエージェント推論をテストするための媒体となる可能性があり、私にとってはより理想的です。」

ポケモン 赤、ストリートファイター、ピクショナリーなどの他のゲームも、AI のベンチマーク実験として使用されてきました。これは、AI のベンチマークが非常に難しいことで有名だからです。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

研究者はAIモデルを標準化された評価基準でテストすることが多いが、こうしたテストの多くはAIにホームフィールドアドバンテージを与えてしまう。AIの訓練方法により、モデルは特定の狭い範囲の問題解決、特に暗記や基本的な外挿を必要とする問題解決に自然と長けている。

簡単に言えば、OpenAIのGPT-4がLSATで88パーセンタイルのスコアを獲得できる一方で、「strawberry(イチゴ)」という単語にRがいくつ含まれているかを判別できないことの意味を理解するのは難しい。AnthropicのClaude 3.7 Sonnetは、標準化されたソフトウェアエンジニアリングベンチマークで62.3%の精度を達成したが、ポケモンをプレイする能力はほとんどの5歳児よりも劣っている。

画像クレジット: Minecraft Benchmark

MC-Bench は技術的にはプログラミング ベンチマークです。モデルは、「フロスティ スノーマン」や「きれいな砂浜にある魅力的な熱帯のビーチハット」など、指示されたビルドを作成するためのコードを記述するように求められるためです。

しかし、ほとんどの MC-Bench ユーザーにとっては、コードを詳しく調べるよりも、雪だるまの見栄えが良いかどうかを評価する方が簡単であり、このことがこのプロジェクトの魅力を高め、どのモデルが一貫して優れたスコアを出すかについてより多くのデータを収集できる可能性を秘めています。

もちろん、これらのスコアがAIの有用性を示す指標となるかどうかは議論の余地がある。しかし、シン氏は、これらは強力なシグナルであると主張している。

「現在のリーダーボードは、これらのモデルを使用した私自身の経験を非常によく反映しており、多くの純粋なテキストベンチマークとは異なります」とシン氏は述べた。「おそらく、企業が正しい方向に向かっているかどうかを知る上で、MC-Benchは役立つでしょう。」

アマンダ・シルバーリングは、TechCrunchのシニアライターとして、テクノロジーと文化の交差点を専門に執筆しています。Polygon、MTV、Kenyon Review、NPR、Business Insiderなどの出版物にも寄稿しています。SF作家のイザベル・J・キムと共に、インターネット文化に関するポッドキャスト「Wow If True」の共同ホストを務めています。TechCrunch入社前は、草の根活動のオーガナイザー、博物館教育者、映画祭のコーディネーターとして活躍しました。ペンシルベニア大学で英文学の学士号を取得し、ラオスでプリンストン・イン・アジア・フェローを務めました。

暗号化メッセージアプリ「Signal」を使って、@amanda.100 までヒントをお送りください。その他、またはアウトリーチの確認については、[email protected]までメールでお問い合わせください。

バイオを見る