
今週初め、MetaはLlama 4 Maverickモデルの実験的かつ未発表バージョンを使用してクラウドソーシングベンチマーク「LM Arena」で高スコアを獲得したことで、非難を浴びました。この事件を受け、LM Arenaのメンテナーは謝罪し、ポリシーを変更し、変更されていないバニラ版のMaverickをスコアに採用しました。
結局、それほど競争力がないことが判明しました。
改造されていないMaverick「Llama-4-Maverick-17B-128E-Instruct」は、金曜日の時点で、OpenAIのGPT-4o、AnthropicのClaude 3.5 Sonnet、GoogleのGemini 1.5 Proなどのモデルよりも下位にランクされました。これらのモデルの多くは、発売から数ヶ月も経っています。
チート行為が発覚した後、Llama 4 のリリースバージョンが LMArena に追加されましたが、ランクが 32 位までスクロールする必要があるため、おそらく見ていないでしょう。pic.twitter.com/A0Bxkdx4LX
— ρ:ɡeσn (@pigeon__s) 2025年4月11日
なぜパフォーマンスが低かったのか?Metaの実験的なMaverickであるLlama-4-Maverick-03-26-Experimentalは、「会話性を重視して最適化」されていたと、同社は先週土曜日に公開したグラフで説明している。この最適化は、人間の評価者がモデルの出力を比較し、好みのものを選択するLM Arenaでうまく機能したようだ。
以前も書いたように、様々な理由から、LM ArenaはAIモデルのパフォーマンスを測る上で最も信頼できる指標とは言えません。しかし、ベンチマークに合わせてモデルを調整することは、誤解を招くだけでなく、開発者にとって、異なるコンテキストにおけるモデルのパフォーマンスを正確に予測することが困難になります。
Metaの広報担当者は声明の中で、Metaは「あらゆる種類のカスタムバリアント」を実験している、とTechCrunchに語った。
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日
「『Llama-4-Maverick-03-26-Experimental』は、チャット向けに最適化された実験版で、LM Arenaでも良好なパフォーマンスを発揮しています」と広報担当者は述べています。「オープンソース版をリリースしたので、開発者がLlama 4をそれぞれのユースケースに合わせてどのようにカスタマイズしていくかを見ていきます。彼らがどのようなものを開発していくのか、楽しみにしていますし、今後のフィードバックも楽しみにしています。」
トピック
カイル・ウィガーズは2025年6月までTechCrunchのAIエディターを務めていました。VentureBeatやDigital Trendsに加え、Android Police、Android Authority、Droid-Life、XDA-Developersといった様々なガジェットブログにも記事を寄稿しています。音楽療法士のパートナーとマンハッタンに在住。
バイオを見る