
Metaが土曜日にリリースした新たな主力AIモデルの一つであるMaverickは、LM Arenaで2位にランクインしました。LM Arenaは、人間の評価者がモデルの出力を比較し、どちらが優れているかを判断するテストです。しかし、MetaがLM Arenaに導入したMaverickのバージョンは、開発者向けに広く公開されているバージョンとは異なるようです。
Xで複数のAI研究者が指摘したように、Metaは発表の中で、LMアリーナのMaverickは「実験的なチャットバージョン」であると述べています。一方、Llamaの公式ウェブサイトに掲載されたチャートには、MetaのLMアリーナのテストは「会話に最適化されたLlama 4 Maverick」を使用して実施されたことが示されています。
以前も記事に書いたように、様々な理由から、LM ArenaはAIモデルのパフォーマンスを測る最も信頼できる指標とは言えません。しかし、AI企業は一般的に、LM Arenaでより良いスコアを得るためにモデルをカスタマイズしたり、微調整したりしていません。少なくとも、そうしたことを認めていません。
モデルをベンチマークに合わせてカスタマイズし、それを保留し、その後同じモデルの「バニラ」版をリリースすることの問題点は、開発者が特定のコンテキストでそのモデルがどの程度のパフォーマンスを発揮するかを正確に予測することが困難になることです。また、これは誤解を招く恐れもあります。理想的には、ベンチマークは(現状では極めて不十分ではありますが)、単一のモデルの様々なタスクにおける長所と短所のスナップショットを提供するものです。
実際、Xの研究者たちは、公開ダウンロード可能なMaverickとLM Arenaでホストされているモデルの動作に大きな違いがあることを観察しています。LM Arena版は絵文字を多用し、非常に冗長な回答をするようです。
よし、ラマ 4 は確かに少し調理されているね、このヤップ シティは何だ? pic.twitter.com/y3GvhbVz65
— ネイサン・ランバート(@natolambert)2025年4月6日
何らかの理由で、アリーナのラマ4モデルでは絵文字がかなり多く使われている
一緒に。ai、良くなったようです: pic.twitter.com/f74ODX4zTt
— テックデブノート (@techdevnotes) 2025年4月6日
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日
私たちは、LM Arenaを管理する組織であるMetaとChatbot Arenaにコメントを求めました。
トピック
カイル・ウィガーズは2025年6月までTechCrunchのAIエディターを務めていました。VentureBeatやDigital Trendsに加え、Android Police、Android Authority、Droid-Life、XDA-Developersといった様々なガジェットブログにも記事を寄稿しています。音楽療法士のパートナーとマンハッタンに在住。
バイオを見る