Metaの幹部は、同社がLlama 4のベンチマークスコアを人為的に引き上げたことを否定している。

Metaの幹部は、同社がLlama 4のベンチマークスコアを人為的に引き上げたことを否定している。
歪んだメタロゴとFacebook、Instagram、WhatsApp、Oculus、Messengerなどの他のブランド
画像クレジット:ブライス・ダービン / TechCrunch

メタ社の幹部は月曜日、同社が新しいAIモデルを特定のベンチマークで良い結果を出すように調整しながらモデルの弱点を隠蔽しているという噂を否定した。

MetaのジェネレーティブAI担当副社長であるアフマド・アル=ダール氏は、Xへの投稿で、MetaがLlama 4 MaverickとLlama 4 Scoutのモデルを「テストセット」でトレーニングしたという主張は「全く事実ではない」と述べました。AIベンチマークにおいて、テストセットとは、トレーニング済みのモデルのパフォーマンスを評価するために用いられるデータの集合体です。テストセットでトレーニングを行うと、モデルのベンチマークスコアが過大評価され、実際よりも高い性能を持つように見せかけてしまう可能性があります。

週末、Metaが新モデルのベンチマーク結果を人為的に引き上げたという根拠のない噂がXとRedditで広まり始めました。この噂は、Metaのベンチマーク手法に抗議して同社を辞めたと主張するユーザーが中国のソーシャルメディアサイトに投稿したことが発端のようです。

MaverickとScoutが特定のタスクでパフォーマンスが低いという報告が、この噂を煽った。また、MetaがベンチマークソフトウェアLM Arenaでより良いスコアを出すために、Maverickの実験的かつ未発表バージョンを使用するという決定も、この噂を煽った。Xの研究者たちは、公開ダウンロード可能なMaverickとLM Arenaでホストされているモデルの動作に大きな違いがあることを観察している。 

アル・ダール氏は、モデルをホストしているさまざまなクラウドプロバイダー間で、Maverick と Scout の「品質がまちまち」になっていることを一部のユーザーが認識していることを認めた。

「モデルは準備が整い次第公開したため、すべての公開実装が完了するまでには数日かかると予想しています」とアル・ダール氏は述べた。「バグ修正とパートナーのオンボーディングに引き続き取り組んでいきます。」

トピック

カイル・ウィガーズは2025年6月までTechCrunchのAIエディターを務めていました。VentureBeatやDigital Trendsに加え、Android Police、Android Authority、Droid-Life、XDA-Developersといった様々なガジェットブログにも記事を寄稿しています。音楽療法士のパートナーとマンハッタンに在住。

バイオを見る