OpenAIは木曜日、同社のAIモデルのパフォーマンスを、幅広い業界や職種における人間の専門家と比較する新たなベンチマークテスト「GDPval」を発表した。このテストは、OpenAIのシステムが経済的に価値のある仕事において人間をどれだけ上回っているかを把握するための初期の試みであり、同社の創業当初の使命である汎用人工知能(AGI)の開発の重要な部分を占めている。
OpenAIは、同社のGPT-5モデルとAnthropicのClaude Opus 4.1が「すでに業界の専門家が作成した作品の品質に近づいている」ことを発見したと述べている。
OpenAIのモデルがすぐに人間の仕事を代替し始めるというわけではありません。一部のCEOはAIが数年のうちに人間の仕事を奪うと予測していますが、OpenAIはGDPvalが現時点では人間の実際の仕事のごく一部しかカバーしていないことを認めています。しかし、これは同社がこのマイルストーンに向けたAIの進歩を測る最新の方法の一つです。
GDPvalは、アメリカの国内総生産(GDP)に最も大きく貢献する9つの産業(医療、金融、製造、政府など)に基づいています。このベンチマークは、ソフトウェアエンジニアから看護師、ジャーナリストまで、これらの産業の44の職種におけるAIモデルのパフォーマンスをテストします。
OpenAIの最初のテストバージョンであるGDPval-v0では、経験豊富な専門家にAI生成レポートと他の専門家が作成したレポートを比較し、最も優れたものを選択するよう依頼しました。例えば、ある課題では、投資銀行家にラストマイル配送業界の競合状況を作成し、AI生成レポートと比較するよう依頼しました。その後、OpenAIは全44職種において、人間のレポートに対するAIモデルの「勝率」を平均化します。
同社によれば、GPT-5の強化版で計算能力が強化されたGPT-5-highについては、同AIモデルが業界の専門家より優れているか同等であると評価された割合は40.6%だったという。
OpenAIはAnthropicのClaude Opus 4.1モデルもテストし、タスクの49%において業界の専門家よりも優れている、あるいは同等と評価されました。OpenAIは、Claudeがこれほど高いスコアを獲得したのは、純粋なパフォーマンスではなく、美しいグラフィックスを作成する傾向があるためだと考えています。
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日

注目すべきは、ほとんどのプロフェッショナルは、上司に研究報告書を提出する以上の多くの業務を行っているということです。GDPval-v0のテストは、それだけを対象としています。OpenAIはこの点を認識しており、将来的にはより多くの業界やインタラクティブなワークフローに対応できる、より堅牢なテストを開発する予定だと述べています。
それでも同社は、GDPval の進歩は注目に値すると見ている。
OpenAIのチーフエコノミスト、アーロン・チャタジー博士は、TechCrunchとのインタビューで、GDPvalの結果は、これらの職種の人々がAIモデルを使用して、より有意義な作業に時間を費やすことができるようになったことを示唆していると述べた。
「モデルはこうしたことのいくつかにおいて優れたものになりつつあるため、機能が向上するにつれて、こうした仕事に就いている人々はモデルを使用して作業の一部をオフロードし、より価値の高い仕事に取り組めるようになる」とチャタジー氏は言う。
OpenAIの評価リーダーであるTejal Patwardhan氏は、TechCrunchに対し、GDPvalの進捗率に勇気づけられていると語った。OpenAIのGPT-4oモデルは約15ヶ月前にリリースされたが、そのスコアはわずか13.7%(人間に対する勝敗数)だった。現在、GPT-5はそのほぼ3倍のスコアを叩き出しており、Patwardhan氏はこの傾向が続くと予想している。
シリコンバレーは、AIモデルの進歩を測り、特定のモデルが最先端であるかどうかを評価するために、幅広いベンチマークを使用しています。最も人気のあるものとしては、AIME 2025(競技数学問題のテスト)とGPQA Diamond(博士課程レベルの科学問題のテスト)があります。しかし、いくつかのAIモデルはこれらのベンチマークの一部において飽和状態に近づいており、多くのAI研究者は、現実世界のタスクにおけるAIの熟練度を測定できる、より優れたテストの必要性を指摘しています。
OpenAIは自社のAIモデルが幅広い業界にとって価値があると主張しており、GDPvalのようなベンチマークはこうした議論においてますます重要になる可能性がある。しかし、OpenAIが自社のAIモデルが人間を上回ると断言するには、より包括的なテストが必要になるかもしれない。
マックスウェル・ゼフは、TechCrunchのAI専門シニアレポーターです。以前はGizmodo、Bloomberg、MSNBCでAIの台頭やシリコンバレーの銀行危機などを取材してきました。サンフランシスコを拠点としています。取材以外の時間は、ハイキング、サイクリング、ベイエリアのグルメ巡りを楽しんでいます。
Maxwell からの連絡を確認したり連絡を受けたりする場合は、[email protected]にメールを送信するか、Signal の mzeff.88 に暗号化されたメッセージを送信してください。
バイオを見る