AIラボCohere、スタンフォード大学、MIT、Ai2による新しい論文は、人気のクラウドソーシングAIベンチマークChatbot Arenaの背後にある組織であるLM Arenaが、特定のAI企業グループがライバルを犠牲にしてより良いリーダーボードスコアを達成するのを支援したと非難している。
著者らによると、LM ArenaはMeta、OpenAI、Google、Amazonといった業界をリードするAI企業に、複数のAIモデルのバリエーションを非公開でテストさせ、最も低いパフォーマンスのモデルのスコアを公表させなかった。これにより、これらの企業はプラットフォームのリーダーボードで上位を獲得しやすくなったが、すべての企業に機会が与えられたわけではないと著者らは述べている。
「このプライベートテストが利用可能だと知らされていた企業はほんの一握りで、一部の企業が受けたプライベートテストの量は他の企業よりもはるかに多かった」と、CohereのAI研究担当副社長で本研究の共著者であるサラ・フッカー氏はTechCrunchのインタビューで述べた。「これがゲーミフィケーションだ」
2023年にカリフォルニア大学バークレー校の学術研究プロジェクトとして創設されたChatbot Arenaは、AI企業にとって頼りになるベンチマークとなっています。2つの異なるAIモデルの回答を「バトル」形式で並べて提示し、ユーザーにどちらが優れているかを選択させる仕組みです。未発表のモデルが仮名でアリーナで競い合うのも珍しくありません。
投票は継続的にモデルのスコアに反映され、結果としてチャットボットアリーナのリーダーボードにおける順位が決定されます。チャットボットアリーナには多くの企業が参加していますが、LMアリーナは長年にわたり、そのベンチマークは公平かつ公正なものであるとの姿勢を貫いてきました。
しかし、論文の著者らが発見したのはそれではないという。
AI企業Metaは、Llama 4のリリースに先立つ1月から3月にかけて、Chatbot Arenaで27種類のモデルを非公開でテストできたと、著者らは主張している。リリース時には、Metaは1つのモデルのスコアのみを公開していたが、そのモデルはChatbot Arenaのリーダーボードで上位にランクインしていた。
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日

LM Arenaの共同設立者でカリフォルニア大学バークレー校のイオン・ストイカ教授は、TechCrunchへのメールの中で、この研究は「不正確な点」と「疑わしい分析」に満ちていると述べた。
「私たちは公正でコミュニティ主導の評価に尽力しており、すべてのモデルプロバイダーに対し、より多くのモデルをテストに提出し、人間の嗜好に関するパフォーマンスを向上させるよう呼びかけています」と、LM ArenaはTechCrunchへの声明で述べています。「あるモデルプロバイダーが他のモデルプロバイダーよりも多くのテストを提出することを選択した場合でも、後者のモデルプロバイダーが不当に扱われることを意味するものではありません。」
優遇されていると思われる研究室
論文の著者らは、一部のAI企業がチャットボットアリーナへの優先アクセスを得ている可能性があることを知った後、2024年11月に調査を開始しました。彼らは5ヶ月間にわたり、合計280万回以上のチャットボットアリーナバトルを測定しました。
著者らは、LM ArenaがMeta、OpenAI、Googleなどの特定のAI企業に対し、自社のモデルをより多くの「モデルバトル」に登場させることで、Chatbot Arenaからより多くのデータを収集することを許可していたという証拠を発見したと述べています。このサンプリングレートの増加は、これらの企業に不当な優位性を与えたと著者らは主張しています。
LM Arenaからの追加データを使用することで、LM Arenaが維持しているもう一つのベンチマークであるArena Hardにおけるモデルのパフォーマンスを112%向上させることが可能です。ただし、LM ArenaはXの投稿で、Arena HardのパフォーマンスはChatbot Arenaのパフォーマンスと直接相関するものではないと述べています。
フッカー氏は、特定の AI 企業がどのようにして優先アクセスを得たのかは不明だが、いずれにせよ LM アリーナには透明性を高める義務があると述べた。
LM ArenaはXへの投稿で、論文の主張のいくつかは現実を反映していないと述べた。同組織は今週初めに公開したブログ記事を引用し、主要でない研究室のモデルが研究で示唆されているよりも多くのチャットボットアリーナバトルに登場していることを示すものだった。
この研究の重要な限界の一つは、Chatbot Arenaでプライベートテスト中のAIモデルを特定するために「自己識別」に依存していたことです。著者らはAIモデルに対し、所属企業について複数回質問し、その回答に基づいて分類を行いましたが、この方法は完璧とは言えません。
しかし、フッカー氏は、著者らが予備調査結果を共有するためにLMアリーナに連絡を取ったところ、同組織はそれに異議を唱えなかったと述べた。
TechCrunchは、この調査で言及されているMeta、Google、OpenAI、Amazonにコメントを求めたが、いずれの企業もすぐには回答しなかった。
LMアリーナが苦境に立たされる
論文の中で、著者らはLMアリーナに対し、チャットボットアリーナをより「公平」にするためのいくつかの変更を実施するよう求めている。例えば、LMアリーナはAIラボが実施できるプライベートテストの数に明確かつ透明性のある制限を設け、これらのテストのスコアを公開することができると著者らは述べている。
LM ArenaはXへの投稿で、これらの提案を拒否し、2024年3月以降、リリース前のテストに関する情報を公開していると主張した。また、このベンチマーク組織は、AIコミュニティが自らモデルをテストできないため、「公開されていないリリース前のモデルのスコアを示すのは意味がない」と述べた。
研究者らはまた、LMアリーナがチャットボットアリーナのサンプリングレートを調整することで、アリーナ内のすべてのモデルが同じ数のバトルに登場するようにできると述べています。LMアリーナはこの提言を公に受け入れ、新しいサンプリングアルゴリズムを作成する意向を示しました。
この論文は、Metaが前述のLlama 4モデルのリリース直後にChatbot Arenaのベンチマークテストで不正行為を行ったことが発覚してから数週間後に発表されました。MetaはLlama 4モデルの1つを「会話性」に最適化し、Chatbot Arenaのリーダーボードで高いスコアを獲得しました。しかし、同社は最適化されたモデルをリリースすることなく、結果として、標準バージョンはChatbot Arenaで大幅にパフォーマンスが低下しました。
当時、LM アリーナは、Meta はベンチマークに対するアプローチにおいてより透明性を高めるべきだったと述べていた。
LMアリーナは今月初め、投資家からの資金調達計画に基づき、新会社を設立すると発表しました。今回の調査は、民間ベンチマーク機関に対する厳しい監視を強化し、企業の影響がプロセスを曇らせることなくAIモデルを評価できるかどうかという点に焦点を当てています。
2025年4月30日午後9時35分(太平洋標準時)更新:この記事の以前のバージョンには、Google DeepMindのエンジニアによるコメントが掲載されており、Cohereの調査の一部は不正確であると指摘されていました。このエンジニアは、Cohereの主張通り、Googleが1月から3月にかけてリリース前テストのためにLM Arenaに10個のモデルを送ったことには異議を唱えませんでしたが、Gemmaを開発する同社のオープンソースチームが送ったのは1個だけだったと指摘しました。