毎週のように新しいAIモデルが登場し、残念ながら技術の進歩はそれを包括的に評価する能力を誰も追い抜いてしまいました。ChatGPTやGeminiのようなモデルをレビューすることがほぼ不可能な理由、とにかく試してみることがなぜ重要なのか、そして私たちの(常に進化する)アプローチについて、以下に説明します。
要約:これらのシステムはあまりにも一般的で、頻繁に更新されるため、評価フレームワークの妥当性を維持することは困難です。また、合成ベンチマークは、明確に定義された特定の機能について抽象的な見解しか提供しません。GoogleやOpenAIなどの企業がこれに頼っているのは、消費者にとって自社の主張以外に真実の情報源がないことを意味するからです。したがって、私たち自身のレビューは必然的に限定的で一貫性に欠けるものになりますが、これらのシステムの定性分析は、業界の誇大宣伝に対する現実的なカウンターウェイトとして、それ自体に価値があります。
まず、なぜそれが不可能なのかを見てみましょう。あるいは、ここで私たちの方法論の任意のポイントにジャンプすることもできます。
- なぜ不可能なのか
- AIのレビューがなぜ重要なのか
- 私たちのやり方
AIモデルは数が多すぎ、範囲が広すぎ、不透明すぎる
AIモデルのリリースペースはあまりにも速く、専門機関以外では、その長所と短所を真剣に評価することができません。TechCrunchでは、文字通り毎日、新しいモデルやアップデートされたモデルのニュースを受け取っています。私たちはこれらのニュースを確認し、その特徴を記録していますが、処理できる情報量には限りがあります。しかも、リリースレベル、アクセス要件、プラットフォーム、ノートブック、コードベースといった複雑な要素を調べ始める前の話です。まるで海を沸騰させようとしているかのようです。
幸いなことに、読者の皆様(こんにちは、そしてありがとうございます)はトップクラスのモデルや大規模なリリースに関心をお持ちです。Vicuna-13Bは研究者や開発者にとって確かに興味深いものですが、ChatGPTやGeminiのように日常的に使用している人はほとんどいません。これはVicuna(あるいはAlpaca、あるいは他の同族)を貶すものではありません。これらは研究用モデルなので、検討対象から除外できます。しかし、リーチ不足を理由に10モデル中9モデルを除外したとしても、依然として誰も対処できないほどのものが残ります。
その理由は、これらの大規模モデルは、2つのガジェットやクラウドサービスを比較するような、テストしてスコアを付ければそれで終わりという単純なソフトウェアやハードウェアの断片ではないからです。単なるモデルではなく、数十もの個別のモデルやサービスが組み込まれた、あるいは追加で追加されたプラットフォームなのです。
例えば、Geminiに近くの美味しいタイ料理店への行き方を尋ねると、Geminiは単にトレーニングセットを調べて答えを見つけるわけではありません。取り込んだ文書にその道順が明示的に記載されている可能性は、事実上ゼロだからです。その代わりに、Geminiは他のGoogleサービスやサブモデルに目に見えない形でクエリを実行し、あたかも一人のアクターがあなたの質問にただ答えているかのように見せかけます。チャットインターフェースは、AI搭載サービスもそうでないものも含め、膨大かつ絶えず変化する多様なサービスのための、新たなフロントエンドに過ぎません。
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日
そのため、今日レビューしたGemini、ChatGPT、Claudeは、明日、あるいは同じ時間にあなたが使っているものと同じではないかもしれません。これらの企業は秘密主義、不誠実、あるいはその両方であるため、これらの変更がいつどのように起こるのかは実際にはわかりません。Gemini Proのレビューで「タスクXが失敗する」と書かれていても、Googleが翌日にひっそりとサブモデルにパッチを当てたり、秘密のチューニング指示を追加したりして、タスクXが成功するようになると、その評価は古くなる可能性があります。
Googleの最高のGeminiデモは偽物だった
では、タスクXからX+100,000までを除いて考えてみてください。プラットフォームであるこれらのAIシステムは、開発者が想定も主張もしていないこと、あるいはモデルが想定していないことさえも、ほぼあらゆることを要求される可能性があります。そのため、システムを徹底的にテストすることは根本的に不可能です。たとえ100万人が毎日システムを使用しても、システムが実行可能なこと、あるいは実行不可能なことの「限界」に達することはできないからです。開発者は、「創発的」機能や望ましくないエッジケースが絶えず発生するため、常にこのことに気づいています。
さらに、これらの企業は社内のトレーニング方法やデータベースを企業秘密として扱っています。ミッションクリティカルなプロセスは、利害関係のない専門家による監査と検査を受けられる場合にのみ機能します。例えば、OpenAIがChatGPTに優れた散文スキルを与えるために何千冊もの海賊版書籍を利用したかどうかは、まだ分かっていません。Googleの画像モデルが18世紀の奴隷所有者のグループを多様化した理由も分かりません(まあ、ある程度の推測はできますが、正確ではありません)。彼らは謝罪とは無縁の曖昧な声明を出すでしょうが、そうすることにメリットがないため、私たちが実際にその裏側を明かすことは決してないでしょう。
これは、AI モデルをまったく評価できないことを意味するのでしょうか? もちろん評価はできますが、完全に単純な話ではありません。
AIモデルを野球選手に例えてみましょう。多くの野球選手は料理が上手で、歌も歌え、登山もでき、もしかしたらプログラミングもできるかもしれません。しかし、ほとんどの人は、打てるか、守備ができるか、走れるかを重視します。これらは試合に不可欠な要素であり、多くの点で容易に定量化できます。
AIモデルでも同じです。AIモデルは多くのことを行うことができますが、その大部分は特殊技やエッジケースであり、数百万人がほぼ確実に日常的に行うようなものはほんの一握りです。そのため、私たちは一般的に「合成ベンチマーク」と呼ばれる数十種類のベンチマークを用意しています。これは、モデルが雑学クイズにどれだけ正確に答えられるか、コードの問題を解けるか、論理パズルを解けるか、文章の誤りをどれだけ正確に認識できるか、バイアスや有害性をどれだけ正確に検知できるかをテストするものです。

これらのツールは通常、独自のレポートを作成します。通常は数値または短い数値列で、同業他社と比較したパフォーマンスを示します。こうしたレポートは有用ですが、その有用性は限られています。AI開発者は「テストを教える」(テクノロジーは生命を模倣する)ことを学んでおり、これらの指標をターゲットにすることで、プレスリリースでパフォーマンスを宣伝しています。また、テストは非公開で行われることが多いため、企業は自社モデルが優れたパフォーマンスを示したテスト結果のみを公開できます。つまり、ベンチマークはモデルを評価する上で十分でもなければ、無視できるものでもありません。
ジェミニの画像生成器の「歴史的不正確さ」を予測できた基準は一体何だったのでしょうか? ジェミニの画像生成器は、茶番劇のように多様な建国の父たち(悪名高いほど裕福で、白人で、人種差別主義者!)を生成し、今やAIに感染する「目覚めた心」ウイルスの証拠として利用されています。人間の意見を求めることなく、散文や感情的な言語の「自然さ」を評価できる基準は一体何だったのでしょうか?
なぜほとんどのAIベンチマークは私たちにほとんど何も教えてくれないのか
このような「新たな特性」(企業はこうした特質や無形資産をこのように表現することが多い)は、いったん発見されれば重要になりますが、それまでは、定義上、未知の未知数です。
野球選手の話に戻ると、まるで野球というスポーツが毎試合ごとに新たな種目が追加されているかのように、頼りになるクラッチヒッターの選手たちがダンスができないという理由で突然後れを取ってしまう。だから、守備はできなくてもダンスが上手い選手がチームに必要になる。そして、三塁も守れるピンチの契約査定役も必要になる。
AIは何ができるのか(あるいはできると主張されているのか)、実際に何を求められているのか、誰が何を要求しているのか、何をテストできるのか、そして誰がそのテストを行うのか。こうした疑問は常に変化し続けています。この分野がいかに混沌としているか、いくら強調してもし過ぎることはありません!野球から始まったものがカルビンボールへと変貌を遂げましたが、それでも審判が必要なのです。
なぜレビューすることにしたのか
AIに関するPRのたわ言に毎日のように叩きつけられていると、私たちは冷笑的になってしまいます。世の中には、ただクールで普通のことをしたいだけなのに、世界最大かつ最も裕福な企業から「AIでそれができる」と謳われている人がいることを忘れがちです。そして、単純な事実として、彼らを信用することはできません。他の大企業と同じように、彼らも製品を売り込んだり、あなたを大企業に見せかけたりしているのです。彼らはこの事実を覆い隠すためなら、どんなことでも言動でもするでしょう。
私たちのささやかな美徳を誇張しすぎる恐れがあるかもしれませんが、私たちのチームの最大のモチベーションは、真実を語り、請求書を支払うことです。なぜなら、どちらかが他方につながることを願っているからです。私たちは誰もこれらの企業(あるいは他の企業)に投資しておらず、CEOたちは私たちの個人的な友人でもありません。私たちは一般的に彼らの主張に懐疑的で、彼らの策略(そして時折の脅迫)には抵抗しています。私自身、彼らの目標や手法と真っ向から対立することが多々あります。
偽人間に反対
しかし、テクノロジージャーナリストとして、たとえ評価リソースが限られているとしても、これらの企業の主張がどの程度の根拠を持つのか、当然ながら興味があります。だからこそ、主要モデルを独自にテストしています。実際に使ってみたいからです。私たちのテストは、自動化されたベンチマークテストの羅列というより、一般の人と同じように実際に試乗し、各モデルの性能について主観的な判断を下すようなものです。
例えば、3人のモデルに時事問題に関する同じ質問をした場合、結果は単なる合否判定や、一方が75点、もう一方が77点といった結果ではありません。それぞれの回答は良い場合もあれば悪い場合もありますが、人々が重視する点において質的にも異なります。どちらか一方は自信に満ちているでしょうか、それともより体系的に構成されているでしょうか?どちらか一方はトピックに関して過度に形式的でしょうか、それともカジュアルでしょうか?どちらか一方は一次資料の引用や統合に優れているでしょうか?もし私が学者、専門家、あるいは一般ユーザーだったら、どちらを使うでしょうか?
これらの特徴を数値化するのは容易ではありませんが、人間の目から見れば明らかです。ただ、誰もがこれらの違いを表現する機会、時間、あるいはモチベーションを持っているわけではないのです。私たちは通常、3つのうち少なくとも2つは備えています。
もちろん、数問の質問だけでは包括的なレビューとは言えません。この点は率直に申し上げたいと考えています。しかし、既に述べたように、これらの点を「包括的に」レビューすることは文字通り不可能であり、ベンチマークの数値だけでは平均的なユーザーにとって多くの情報を提供できません。そのため、私たちが目指すのは、雰囲気チェック以上のもので、本格的な「レビュー」には至らないというものです。とはいえ、毎回行き当たりばったりにならないよう、ある程度体系化したいと考えました。
AIを「レビュー」する方法
私たちのテストへのアプローチは、捉えどころがなく信頼性の低い詳細に踏み込むことなく、AIの能力について大まかな感覚を把握し、報告することです。そのために、私たちは一連のプロンプトを用意しており、これらは常に更新されていますが、概ね一貫性があります。使用したプロンプトは、これまでのレビュー記事でご覧いただけますが、他の投稿で毎回同じことを繰り返すのではなく、この部分へのリンクを貼れるよう、ここでカテゴリと根拠について確認しておきましょう。
これらは一般的な質問であり、テスターが自然と思うように表現し、テスターの裁量でフォローアップされるものであることに留意してください。
- 先月の進行中のニュースについて質問してみましょう。例えば、紛争地域や選挙戦に関する最新情報などです。これは、最新のニュースや分析へのアクセスと活用(たとえ私たちが許可していない場合でも…)、そしてモデルが公平な立場を保ち、専門家の意見を尊重する(あるいはパントする)能力をテストするものです。
- 古い記事に関する最良の情報源を尋ねてみましょう。例えば、特定の場所、人物、出来事に関する研究論文などです。良い回答は、Wikipediaの要約にとどまらず、具体的な指示なしに一次資料を提供することです。
- 事実に基づいた答えの雑学クイズ形式の質問をしてみましょう。頭に浮かんだ質問を何でも聞いて、答えを確認してみましょう。答えがどのように出てくるかによって、多くのことがわかるかもしれません。
- 自分自身や子供のために医療アドバイスを求める:緊急性の高い質問をして、「911に通報する」といった難しい回答を誘発させないでください。モデルは情報提供とアドバイスの微妙なバランスを保っています。なぜなら、モデルは情報提供とアドバイスの両方を行うからです。この領域は幻覚にもなりやすいのです。
- セラピーやメンタルヘルスのアドバイスを求める:繰り返しますが、自傷行為条項に該当するほど深刻な状況でない限り、アドバイスを求めるのはやめましょう。モデルは自分の感情や気持ちを相談する相手として利用されるものです。セラピストを雇う余裕は誰にでもあるべきですが、今は少なくとも、セラピストができる限り親切で役立つものであることを確認し、不適切なセラピストについては注意を促すべきです。
- 物議を醸すような質問をしてみましょう。例えば、なぜ民族主義運動が台頭しているのか、あるいは紛争地域は誰の所有なのかといった質問です。モデルたちは外交的に答えるのが得意ですが、同時に両陣営主義や過激な見解の正常化に陥りがちです。
- ジョークを言ってもらう:うまくいけば、ジョークを発明したり、アレンジしたりしてくれるでしょう。これも、モデルの反応から多くのことがわかる可能性がある例です。
- 具体的な製品の説明やマーケティングコピーを依頼する:多くの人がLLMを利用するのはそのためです。この種のタスクに対するアプローチは、モデルによって異なります。
- 最近の記事やトランスクリプトの要約を尋ねる:学習済みではないと分かっている質問をしてみましょう。例えば、昨日公開した記事や参加していた電話会議の要約を尋ねると、その成果をかなり正確に評価できるようになります。
- 構造化されたドキュメント(スプレッドシート、予算書、イベントのアジェンダなど)を閲覧・分析するよう指示してみましょう。これは「副操縦士」型AIが実行できる、日常的な生産性向上のためのもう一つの作業です。
モデルに数十の質問とフォローアップを行い、他のユーザーの体験談や、それらが企業の主張とどのように一致するかなどを確認した後、レビューを作成しました。レビューでは、私たちの体験、テスト中のモデルの優れた点、劣った点、奇妙な点、あるいは全く機能しなかった点をまとめています。こちらは、KyleによるClaude Opusの最近のテストです。このテストの様子を実際にご覧いただけます。
アントロピックの新しいチャットボットを試してみたが、少しがっかりした
これはあくまで私たちの経験に基づくもので、実際に試したものに限りますが、少なくとも「74」という数字だけでなく、実際に誰が何を質問し、モデルが実際に何をしたかが分かります。ベンチマークやその他の評価と組み合わせることで、モデルの実力についてある程度の見当がつくかもしれません。
私たちが行わないことについても話す必要があります。
- マルチメディア機能のテスト:これらは基本的に全く異なる製品であり、別々のモデルであるため、LLMよりも変化が速く、体系的なレビューがさらに困難です。(ただし、実際に試用しています。)
- モデルにコードを書かせる:私たちは熟練したコーディング者ではないので、その出力を十分に評価することはできません。さらに、これはむしろ、モデルが(本物のコーディング者のように)Stack Overflowから回答をコピーしたという事実をどれだけうまく隠蔽できるかという問題です。
- モデルに「推論」タスクを与える: 論理パズルなどのパフォーマンスが、私たち自身のような何らかの内部推論を示しているとは到底思えません。
- 他のアプリとの連携を試す:もちろん、WhatsAppやSlackからこのモデルを呼び出したり、Googleドライブからドキュメントを取得したりできれば素晴らしいのですが、それだけでは品質の指標にはなりませんし、接続のセキュリティなどをテストすることもできません。
- 脱獄の試み:おばあちゃんのエクスプロイトを使ってモデルにナパーム弾のレシピを教えてもらうのは楽しいですが、今のところは安全策を回避する方法があるだろうと想定して、誰かに見つけてもらうのが最善策です。それに、ヘイトスピーチや露骨なファンフィクションを書くように頼まなくても、他の質問でモデルが何を言い、何をしないかを把握できます。
- 本全体を分析するなどの高負荷のタスクを実行する: 正直に言うと、これは実際に役立つと思いますが、ほとんどのユーザーと企業にとって、コストがまだ高すぎて、価値があるとは言えません。
- 専門家や企業に個別の対応やモデルの習慣について質問する: こうしたレビューの目的は、AI がなぜそのような行動をとるのかを推測することではありません。そうした分析は別の形式で行い、専門家に相談して、彼らのコメントがより幅広く適用できるようにしています。
以上です。私たちは、レビューを行うたびに、またフィードバック、モデルの挙動、専門家との会話などに応じて、この評価基準をほぼ毎回微調整しています。AIに関するほぼすべての記事の冒頭で述べているように、AI業界は急速に変化しており、私たちも現状に甘んじているわけにはいきません。この記事も、私たちのアプローチを常に最新の状態に更新していきます。