MetaのバニラMaverick AIモデルは、人気のチャットベンチマークでライバルより下位にランクされています

Cemubo vgnpne 0

Vision

スマートフォンに表示された LLaMA (Large Language Model Meta AI) のロゴと、背景の ChatGPT (OpenAI) のロゴ。 — **画像クレジット:**ラファエル・エンリケ/SOPA Images/LightRocket / Getty Images

2025年4月11日午後3時46分（太平洋夏時間）

今週初め、MetaはLlama 4 Maverickモデルの実験的かつ未発表バージョンを使用してクラウドソーシングベンチマーク「LM Arena」で高スコアを獲得したことで、非難を浴びました。この事件を受け、LM Arenaのメンテナーは謝罪し、ポリシーを変更し、変更されていないバニラ版のMaverickをスコアに採用しました。

結局、それほど競争力がないことが判明しました。

改造されていないMaverick「Llama-4-Maverick-17B-128E-Instruct」は、金曜日の時点で、OpenAIのGPT-4o、AnthropicのClaude 3.5 Sonnet、GoogleのGemini 1.5 Proなどのモデルよりも下位にランクされました。これらのモデルの多くは、発売から数ヶ月も経っています。

チート行為が発覚した後、Llama 4 のリリースバージョンが LMArena に追加されましたが、ランクが 32 位までスクロールする必要があるため、おそらく見ていないでしょう。pic.twitter.com/A0Bxkdx4LX

— ρ:ɡeσn (@pigeon__s) 2025年4月11日

なぜパフォーマンスが低かったのか？Metaの実験的なMaverickであるLlama-4-Maverick-03-26-Experimentalは、「会話性を重視して最適化」されていたと、同社は先週土曜日に公開したグラフで説明している。この最適化は、人間の評価者がモデルの出力を比較し、好みのものを選択するLM Arenaでうまく機能したようだ。

以前も書いたように、様々な理由から、LM ArenaはAIモデルのパフォーマンスを測る上で最も信頼できる指標とは言えません。しかし、ベンチマークに合わせてモデルを調整することは、誤解を招くだけでなく、開発者にとって、異なるコンテキストにおけるモデルのパフォーマンスを正確に予測することが困難になります。

Metaの広報担当者は声明の中で、Metaは「あらゆる種類のカスタムバリアント」を実験している、とTechCrunchに語った。

テッククランチイベント

サンフランシスコ | 2025年10月27日～29日

「『Llama-4-Maverick-03-26-Experimental』は、チャット向けに最適化された実験版で、LM Arenaでも良好なパフォーマンスを発揮しています」と広報担当者は述べています。「オープンソース版をリリースしたので、開発者がLlama 4をそれぞれのユースケースに合わせてどのようにカスタマイズしていくかを見ていきます。彼らがどのようなものを開発していくのか、楽しみにしていますし、今後のフィードバックも楽しみにしています。」

トピック

カイル・ウィガーズは2025年6月までTechCrunchのAIエディターを務めていました。VentureBeatやDigital Trendsに加え、Android Police、Android Authority、Droid-Life、XDA-Developersといった様々なガジェットブログにも記事を寄稿しています。音楽療法士のパートナーとマンハッタンに在住。

バイオを見る

Posted by Cemubo