アントロピックはポケモンを最新のAIモデルのベンチマークに使用した

Cemubo vgnpne 0

Airpods

2025年2月24日午前11時10分（太平洋標準時）

Anthropicはポケモンを最新のAIモデルのベンチマークに使用しました。本当に。

アンスロピックは月曜日に公開したブログ記事で、最新モデル「Claude 3.7 Sonnet」をゲームボーイの名作「ポケットモンスター赤」でテストしたと発表した。同社はこのモデルに基本的なメモリ、画面ピクセル入力、そしてボタンを押したり画面を操作したりするための関数呼び出しを搭載し、ポケモンを連続してプレイできるようにした。

Claude 3.7 Sonnet のユニークな特徴は、「拡張思考」を実行できることです。OpenAI の o3-mini や DeepSeek の R1 と同様に、Claude 3.7 Sonnet はより多くのコンピューティングを適用し、より多くの時間をかけることで、困難な問題を「推論」することができます。

どうやら、ポケモン赤ではそれが役に立ったようです。

物語の始まりであるパレットタウンの家から出られなかったクロードの前のバージョン、クロード 3.0 ソネットと比較すると、クロード 3.7 ソネットは 3 人のポケモンジムリーダーとの戦いに成功し、バッジを獲得しました。

現時点では、クロード3.7ソネットがこれらのマイルストーンに到達するのにどれだけの計算量が必要だったのか、そしてそれぞれにどれだけの時間がかかったのかは明らかではない。アントロピックは、モデルが最後のジムリーダーであるサージに到達するまでに35,000アクションを実行したとだけ述べている。

先週、ある研究者が Claude 3.7 Sonnet の早期プレビューを試しました。
結果は衝撃的だった。数時間でクロードはブロックを倒し、数日後にはミスティを圧倒した。旧モデルでは到底達成できなかった進歩だった。
拡張思考は超効果的だと分かりました。pic.twitter.com/RspsLgj2Uf
— アントロピック（@AnthropicAI）2025年2月25日

きっと、進取的な開発者がそれに気づくまで、そう長くはかからないでしょう。

テッククランチイベント

サンフランシスコ | 2025年10月27日～29日

ポケモン赤は、どちらかといえばおもちゃのベンチマークです。しかし、ゲームがAIベンチマークに利用されてきた歴史は長く、ここ数ヶ月だけでも、ストリートファイターからピクショナリーまで、様々なタイトルでモデルのゲームプレイ能力をテストするための新しいアプリやプラットフォームが数多く登場しています。

トピック

カイル・ウィガーズは2025年6月までTechCrunchのAIエディターを務めていました。VentureBeatやDigital Trendsに加え、Android Police、Android Authority、Droid-Life、XDA-Developersといった様々なガジェットブログにも記事を寄稿しています。音楽療法士のパートナーとマンハッタンに在住。

バイオを見る

Posted by Cemubo