今週のAI:AIベンチマークは今のところ無視した方が良いかもしれない

今週のAI:AIベンチマークは今のところ無視した方が良いかもしれない

TechCrunchの定期AIニュースレターへようこそ!しばらくの間、配信をお休みさせていただきますが、私のコラム、日々の分析記事、最新ニュースなど、AIに関する記事はすべてTechCrunchでご覧いただけます。これらの記事やその他の情報を毎日メールで受け取りたい方は、こちらから毎日のニュースレターにご登録ください。

今週、億万長者のイーロン・マスク氏が率いるAIスタートアップxAIは、同社のGrokチャットボットアプリを支える最新のフラッグシップAIモデル「Grok 3」をリリースしました。約20万基のGPUで学習されたこのモデルは、数学、プログラミングなどのベンチマークにおいて、OpenAIを含む他の多くの主要モデルを凌駕しています。

しかし、これらのベンチマークは実際には何を伝えているのでしょうか?

TCでは、AI業界がモデルの改善を測定する数少ない(比較的)標準化された方法の一つであるため、ベンチマーク数値を渋々報告することがよくあります。一般的なAIベンチマークは、難解な知識を問う傾向があり、ほとんどの人が関心を持つタスクの熟練度とはあまり相関しない総合スコアを示す傾向があります。

ウォートン大学のイーサン・モリック教授は、月曜日にGrok 3が公開された後、Xに関する一連の投稿で「より優れた一連のテストと独立したテスト機関の緊急の必要性」を指摘した。モリック教授が示唆したように、AI企業はベンチマーク結果を自己報告することが多く、その結果を額面通りに受け入れるのはさらに困難になっている。

「公開されているベンチマークはどれも『まあまあ』で飽和状態にあり、AIテストの多くは味覚に基づいた食品レビューのようなものになってしまっている」とモリック氏は書いている。「AIが業務に不可欠なのであれば、もっと多くのAIが必要だ。」

AIの新しいベンチマークを提案する独立したテストや組織は数多く存在しますが、それらの相対的な優劣については業界内で決着がついていません。AIコメンテーターや専門家の中には、ベンチマークの有用性を保証するために経済効果と整合させることを提案する人もいますが、一方で、普及率と実用性こそが究極のベンチマークであると主張する人もいます。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

この議論は永遠に続くかもしれない。XユーザーのRoonが提唱するように、AI技術の大きな飛躍がない限り、新しいモデルやベンチマークにはあまり注意を払わない方がよいのかもしれない。たとえAIに対するFOMO(取り残された気分)をある程度引き起こすとしても、集団の健全性を保つためには、それは最悪のアイデアではないかもしれない。

前述の通り、「This Week in AI」は休止いたします。読者の皆様、このジェットコースターのような旅路をお付き合いいただきありがとうございました。それでは次回まで。

ニュース

画像クレジット:ネイサン・レイン/ブルームバーグ/ゲッティイメージズ

OpenAI は ChatGPT の「検閲解除」を試みる: M​​ax は、トピックがいかに困難または物議を醸すものであっても、OpenAI が AI 開発のアプローチを変更して「知的自由」を明示的に受け入れようとしていることについて書きました。

ミラの新しいスタートアップ元 OpenAI CTO ミラ・ムラティの新しいスタートアップ Thinking Machines Lab は、「AI を [人々の] 独自のニーズや目標に合わせて機能させる」ツールの構築を目指しています。

Grok 3 登場:イーロン・マスクの AI スタートアップ企業 xAI は、最新の主力 AI モデル Grok 3 をリリースし、iOS および Web 向けの Grok アプリの新しい機能を発表しました。

まさにLlamaらしいカンファレンス: Metaは今春、生成AIに特化した初の開発者カンファレンスを開催します。Metaの生成AIモデル「Llama」ファミリーにちなんで「LlamaCon」と名付けられたこのカンファレンスは、4月29日に開催予定です。

AIとヨーロッパのデジタル主権:ポールは、約20の組織が協力して「ヨーロッパにおける透明性のあるAIのための一連の基盤モデル」を構築し、EUのすべての言語の「言語的および文化的多様性」を維持するOpenEuroLLMについて紹介しました。

今週の研究論文

このイラスト写真には、ラップトップ スクリーンに表示された OpenAI ChatGPT Web サイトが表示されています。
画像クレジット: Jakub Porzycki/NurPhoto / Getty Images

OpenAIの研究者たちは、強力なAIシステムのコーディング能力を評価することを目的とした、新たなAIベンチマーク「SWE-Lancer」を開発しました。このベンチマークは、バグ修正や機能の実装から「マネージャーレベル」の技術実装提案まで、1,400件を超えるフリーランスのソフトウェアエンジニアリングタスクで構成されています。

OpenAIによると、最も優れたAIモデルであるAnthropicのClaude 3.5 Sonnetは、SWE-Lancerベンチマークで40.3%のスコアを記録しており、AIの発展にはまだまだ時間がかかることを示唆しています。ただし、研究者たちはOpenAIのo3-miniや中国のAI企業DeepSeekのR1といった新しいモデルをベンチマークしていない点には注意が必要です。

今週のモデル

中国のAI企業Stepfunが、複数の言語の音声を理解・生成できる「オープン」AIモデル「Step-Audio」をリリースしました。Step-Audioは中国語、英語、日本語に対応しており、ユーザーは歌声を含む合成音声の感情や方言を調整できます。

Stepfunは、パーミッシブライセンスの下でモデルをリリースしている、資金力のある中国のAIスタートアップ企業の一つです。2023年に設立されたStepfunは、最近、中国国有のプライベートエクイティファームを含む多数の投資家から数億ドル規模の資金調達ラウンドを完了したと報じられています。

グラブバッグ

ヌースリサーチディープヘルメス
画像クレジット: Nous Research

AI研究グループのNous Researchは、推論と「直感的な言語モデル機能」を統合した初のAIモデルの1つであると主張するモデルをリリースした。

DeepHermes-3 Previewというモデルは、長い「思考の連鎖」のオン/オフを切り替えることで、ある程度の計算負荷を犠牲にして精度を向上させることができます。「推論」モードでは、DeepHermes-3 Previewは他の推論AIモデルと同様に、より難しい問題に対してより長く「思考」し、答えに至るまでの思考プロセスを示します。

Anthropic はアーキテクチャ的に類似したモデルを近々リリースする予定であると報じられており、OpenAI もそのようなモデルが近い将来のロードマップに含まれていると述べています。