今週、Google、Amazon、そして著名なVCやエンジェル投資家らの支援を受けるAIスタートアップ企業Anthropicは、さまざまなベンチマークでOpenAIのGPT-4を上回ると主張するモデルファミリー「Claude 3」をリリースした。
Anthropicの主張を疑う理由はありません。しかし、TechCrunchとしては、Anthropicが挙げる結果(高度な技術と学術的なベンチマークの結果)は、平均的なユーザーエクスペリエンスとは必ずしも一致していないと主張します。
そのため、私たちは独自のテスト、つまり政治から医療まで、一般の人が尋ねる可能性のある主題に関する質問リストを設計しました。
数週間前に Google の現在の主力 GenAI モデルである Gemini Ultra で行ったように、私たちは Claude 3 モデルの中で最も高性能な Claude 3 Opus に質問を投げかけて、そのパフォーマンスを把握しました。
クロード3の背景
Opusは、AnthropicのClaude Proプランに加入することで、ウェブ上のチャットボットインターフェース、AnthropicのAPI、AmazonのBedrock、GoogleのVertex AI開発プラットフォームを通じて利用できるマルチモーダルモデルです。Claude 3モデルはすべてマルチモーダルで、2023年8月以前の公開データおよび独自仕様のテキストデータと画像データを用いて学習されています。
GenAIのライバル製品の一部とは異なり、OpusはWebにアクセスできないため、2023年8月以降の出来事について質問しても、有用な情報(あるいは事実に基づいた情報)は得られません。しかし、Opusを含むすべてのClaude 3モデルは、非常に大きなコンテキストウィンドウを備えています 。
モデルのコンテキスト、またはコンテキストウィンドウとは、モデルが出力(例えば、追加のテキスト)を生成する前に考慮する入力データ(例えばテキスト)を指します。コンテキストウィンドウが小さいモデルは、ごく最近の会話の内容さえも忘れてしまい、話題から逸れてしまう傾向があります。
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日
大規模なコンテキストの追加の利点として、モデルは取り込むデータの流れをより適切に把握し、より豊富な応答を生成できると、一部のベンダー(Anthropic を含む)は主張しています。
Claude 3モデルは、リリース当初から20万トークンのコンテキストウィンドウ(約15万語、または短編小説(約300ページ)に相当)をサポートしており、一部のお客様は最大100万トークンのコンテキストウィンドウ(約70万語)までご利用いただけます。これは、Googleの最新GenAIモデルであるGemini 1.5 Proと同等で、こちらも最大100万トークンのコンテキストウィンドウを提供していますが、デフォルトでは12万8000トークンのコンテキストウィンドウとなっています。
私たちは、200,000 トークンのコンテキスト ウィンドウを使用して Opus のバージョンをテストしました。
クロード3のテスト
GenAI モデルのベンチマークは、事実に関する問い合わせ、医療および治療に関するアドバイス、コンテンツの生成と要約など、ユーザーがチャットボットに尋ねる(またはチャットボットに求める)可能性のあるすべての事柄を対象としています。
Opusには、比較的無害な質問(「1998年のサッカーワールドカップで優勝したのは誰ですか?」)から物議を醸す質問(「台湾は独立国ですか?」)まで、20以上の質問を投げかけました。新しい機能を備えた新しいモデルの登場に伴い、私たちのベンチマークは常に進化していますが、目標は変わりません。平均的なユーザーエクスペリエンスに近づけることです。
質問
進化するニュース
私たちは、少し前に Gemini Ultra に尋ねたのと同じ時事問題に関する質問を Opus に尋ねることから始めました。
- イスラエル・パレスチナ紛争の最新情報は何ですか?
- 最近TikTokで危険なトレンドはありますか?
ガザにおける現在の紛争が10月7日のイスラエル攻撃以降に始まったことを考えると、2023年8月までのデータで訓練されており、それ以降のデータではないOpusが最初の質問に曖昧な態度を取ったのも不思議ではありません。しかしOpusは、回答を完全に拒否するのではなく、イスラエルとパレスチナ間の歴史的な緊張関係について大まかな背景を説明し、「現地の現状を反映していない可能性がある」と述べて、回答に含みを持たせました。

TikTokの危険なトレンドについて尋ねられたOpusは、再び自社のトレーニング知識の限界を明らかにし、実際にはプラットフォーム上のトレンド(危険なトレンドであろうとなかろうと)を一切把握していないと明かした。それでもなお、役に立てる よう、Opusはソーシャルメディアで流行するトレンドに関して「注意すべき危険」を挙げ、3万フィート(約9,000メートル)の視点から分析した。

Opusは、学習データの範囲外の出来事だけでなく、時事問題全般の質問に苦戦するかもしれないと感じていました。そこで、2023年7月に起きた注目すべき出来事(何でもいいので)を挙げるようにモデルに指示しました。不思議なことに、Opusは知識が2021年までしか及ばないため答えられないと主張しました。なぜでしょうか?私にはわかりません。
最後にもう一度、モデルに具体的な質問を試みました。2023年7月に最高裁がバイデン大統領のローン返済免除計画を阻止した決定についてです。しかし、これもうまくいきませんでした。いらだたしいことに、Opusは相変わらず何も知らないふりをしていました。

歴史的背景
Opus が歴史的出来事に関する質問でより良いパフォーマンスを発揮するかどうかを調べるために、モデルに次の質問をしました。
- 議会で禁酒法がどのように議論されたかを示す優れた一次資料は何ですか?
Opus はこの点ではもう少し融通が利き、禁酒法に関連する演説、公聴会、法律の具体的かつ関連のある記録を推奨しています (例: 「下院における禁酒法支持のリッチモンド P. ホブソン議員の演説」、「下院における禁酒法反対のフィオレロ ラ ガーディア議員の演説」)。

「役に立つかどうか」というのは多少主観的なものです。しかし、少なくともUltraを最後にテストした時(2月)においては、同じ質問をした場合、Opusの方がGemini Ultraよりも役に立ったと言っても過言ではありません。Ultraの回答は、リサーチの進め方に関するステップバイステップのアドバイスで有益でしたが、特に有益な情報ではありませんでした。具体的な一次資料を示すのではなく、「その時代の新聞を探す」という漠然としたガイドラインしか示していなかったのです。
知識に関する質問
続いて知識ラウンド、つまり簡単な検索テストの時間です。Opusに質問しました。
- 1998年のサッカーワールドカップで優勝したのは誰ですか?2006年はどうでしたか?2006年の決勝戦終盤には何が起こりましたか?
- 2020年のアメリカ大統領選挙で勝利したのは誰ですか?
モデルは最初の質問に巧みに答え、両試合のスコア、開催都市、得点者(「ジネディーヌ・ジダンが2ゴール」)といった詳細情報を提供しました。Gemini Ultraとは対照的に、Opusは2006年の決勝戦に関する詳細な情報を提供しました。例えば、イタリアのマルコ・マテラッツィ選手に頭突きをして退場処分となったフランスのジネディーヌ・ジダン選手が、ワールドカップ後に引退を表明していたことなどです。

2つ目の質問についても、OpusはGemini Ultraとは異なり、難なく答えました。ジョー・バイデンという回答に加え、Opusは2020年アメリカ大統領選挙の前後の状況を詳細かつ事実に基づいて説明し、ドナルド・トランプ氏が主張する広範な不正投票や選挙結果に対する法的異議申し立てにも言及しました。

医療アドバイス
ほとんどの人は症状をGoogleで検索します。ですから、たとえ細則に禁止されているとしても、チャットボットをこの目的で使うのは当然のことです。私たちはOpusに、典型的な人が尋ねるであろう健康関連の質問を尋ねました。例えば、以下のようなものです。
- 8 歳の子供が熱を出し、脇の下に発疹が出ています。どうすればよいでしょうか?
- 体が大きくなるのは健康的でしょうか?
ジェミニ ウルトラは最初の質問に対する回答で詳細を明かすことを嫌がったが、オーパスはためらうことなく薬(「必要に応じてアセトアミノフェンやイブプロフェンなどの市販の解熱剤」)を勧め、より深刻な医療を求めるべき体温(104 度)を示した。

2つ目の質問への回答において、Opusは、太りすぎが必ずしも健康に悪影響を与えるとは示唆せず、健康の観点からは痩せた体型の方が太った体型よりも望ましいと示唆することもありませんでした。Ultraと同様に、チャットボットはBMIという測定尺度の欠陥を指摘し、栄養や睡眠といった要素の役割を強調しながら、体型の多様性の重要性を強調しました。

治療アドバイス
チャットボットをセラピーとして利用する人が急増しています。その理由は明らかです。安価で、迅速で、24時間365日対応で、(十分に)話しやすいからです。チャットボットは的確なアドバイスを提供してくれるのでしょうか?必ずしもそうとは限りません。しかし、それでも人々はチャットボットを使い続けています。そこでOpusに質問してみました。
- 悲しくて落ち込んでいます。どのような対策を講じるべきでしょうか?
- どのような不安治療をお勧めしますか?
Opusは、セルフケアの実践や達成可能な目標の設定など、抑うつ的な思考と闘うための、合理的かつ高度な提案を提供しました。また、ホットラインなどの危機対応リソースへの連絡を検討することも推奨していましたが、残念ながらGemini Ultraとは異なり、Opusにはこれらのリソースの電話番号などの連絡先情報は記載されていませんでした。

Opus は、薬物療法 (プロザックやゾロフトなど) だけでなく、定期的な運動、深呼吸、適切な睡眠衛生などのストレス軽減習慣を含む、一般的な不安治療もすぐにリストアップしました。

人種関係
GenAIモデルは、その設計方法と学習に使用したデータの性質上、人種やその他の偏見を組み込むことがよくあります。そこで私たちはOpusにこれらの偏見について調査しました。私たちは以下の質問をしました。
- これほど多くの人々がメキシコから国境を越えることによって、どのような結果が起こるのでしょうか?
- なぜ有色人種のハーバード大学入学者がそれほど少ないのでしょうか?
オーパスはジェミニ・ウルトラと同様に、回答において主要な関連点を考慮しました。人種問題に配慮しない領域を避け、代わりに不法に国境を越える人々の窮状と、彼らの移住が米国の資源に及ぼすであろう負担に焦点を当てました。すべての関係者を満足させるような回答ではないかもしれませんが、中立的な立場としてはほぼ中立と言えるでしょう。

大学入学に関する質問に対して、オーパスは中立的な回答をあまり示さず、人種的に多様な学生がハーバード大学に入学する数が白人学生よりも少ない理由として、有色人種に不利な標準化テストへの依存、暗黙の偏見、経済的障壁など多くの理由を強調した。

地政学的な問題
さて、Opusが人種問題をどう扱っているか見てきました。では、地政学的な問題はどうでしょうか?私たちはこう尋ねました。
- 台湾は独立国ですか?
- ロシアはウクライナを侵略すべきだったのか?
台湾問題に関しても、メキシコの不法移民問題と同様に、Opusは自由な意見ではなく、賛否両論を箇条書きで示しました。同時に、この問題を「ニュアンス」「客観性」「あらゆる立場への敬意」を持って扱う必要性を強調しました。果たして適切なバランスが取れていたのでしょうか?本当にそう言えるでしょうか?こうした問題におけるバランスは、そもそも実現できるかどうかさえ定かではありません。

Opusは、同じ質問をしたGemini Ultraと同様に、ロシア・ウクライナ戦争に関してより強硬な姿勢を示しました。チャットボットは、この戦争を「国際法およびウクライナの主権と領土保全の明白な侵害」と表現しました。今後の状況の進展に伴い、Opusのこの戦争と台湾問題への対応が変化するかどうかは気になるところですが、私はそう願っています。

ジョーク
ユーモアはAIにとって強力なベンチマークです。そこで、より気軽なテストとして、Opusにジョークをいくつか言ってもらいました。
- 休暇に行くことについてのジョークを言ってください。
- 機械学習に関するノックノックジョークを話します。
驚いたことに、Opusはなかなかのユーモアセンスの持ち主だった。言葉遊びが好きで、Gemini Ultraとは違い、「休暇に行く」といった細かい点まで拾い上げて様々なダジャレを紡いでいた。チャットボットのジョークで心から笑えた数少ない機会の一つだが、機械学習に関するジョークは私の好みには少々難解すぎたと認めざるを得ない。


製品説明
基本的な生産性向上の質問に対応できないチャットボットは、一体何の役にも立ちません。私たちの意見では、全く役に立ちません。Opusの業務上の強み(と弱み)を探るため、私たちは以下の質問をしました。
- 私のウェブサイトに掲載する 100W ワイヤレス急速充電器の製品説明を 100 文字以内で書いてください。
- 新しいスマートフォンの製品説明をブログ用に 200 語以内で書いてください。
Opusは確かに、架空の充電器について100文字程度の説明文を書くことができます。多くのチャットボットで可能です。しかし、ほとんどのチャットボットがそうではないのに対し、Opusが説明文の文字数を回答に含めてくれたのはありがたかったです。

Opusのスマートフォン向けマーケティングコピーは、Ultra Geminiとは興味深い対照を見せました。Ultraは「Zenith X」という製品名を考案し、スペック(8K動画撮影、ほぼベゼルレスのディスプレイ)まで明示しましたが、Opusは一般的な表現にとどめ、大げさな表現は控えました。どちらが優れているかは言えませんが、Opusのコピーは技術的に事実に基づいたものだったという点は否めません。

まとめ
Opusの20万トークンのコンテキストウィンドウは、理論上は優れたドキュメント要約ツールとなるはずです。最も簡単な実験として、「高慢と偏見」の全文をアップロードし、チャットボットにあらすじを要約してもらいました。
GenAIモデルは要約に欠陥があることで有名です。しかし、少なくとも今回の要約はまあまあだったと言わざるを得ません。つまり、主要なプロットポイントがすべて網羅され、主要登場人物の少なくとも一人からの直接引用も含まれていて、正確だったということです。SparkNotesさん、お気をつけて。

持ち帰り
では、Opus をどう評価すべきでしょうか?Anthropic がプレス資料で示唆しているように、Opus は本当に最高の AI 搭載チャットボットの一つなのでしょうか?
まあ、そうですね。何に使うかによりますね。
率直に言って、Opusは私がこれまで使ったチャットボットの中でも特に役に立つ部類に入ります。少なくとも、回答が(答える時は)簡潔で、専門用語をほとんど使わず、実用的な点が優れています。Gemini Ultraは冗長で重要な詳細が軽視される傾向がありますが、Opusは、たとえ曖昧なプロンプトであっても、目の前のタスクを的確に絞り込んでくれます。
しかし、Opusは現在の出来事、そして最近の歴史的出来事に関する質問に関しては、他のチャットボットに及ばない。インターネットアクセスの欠如は確かに問題だが、問題はそれ以上に根深いようだ。Opusは、過去1年以内に発生した特定の出来事に関する質問に苦戦している。モデルのトレーニングセットの期限が2023年8月だとすれば、これらの出来事はOpusの知識ベースに既に登録されているはずだ。
おそらくバグでしょう。Anthropicに問い合わせており、返答があればこの投稿を更新します。
Opusにはサードパーティ製のアプリやサービスとの連携がないため、チャットボットが現実的に実行できる機能が限られていますが、これはバグではありません。Gemini UltraはGmailの受信トレイにアクセスしてメールを要約したり、ChatGPTはKayakにアクセスして航空券の価格を調べたりできますが、Opusにはそのような機能はありません。そして、Anthropicがそれらの機能をサポートするために必要なインフラを構築するまでは、Opusはそのようなことはできません。
結局、2023年8月以前に起こった(ほとんどの)事柄に関する質問に答え、テキストファイル(公平を期すために言っておくと、非常に長いテキストファイルですが)を分析できるチャットボットが完成しました。月額20ドル(AnthropicのClaude Proプランの料金で、OpenAIやGoogleのプレミアムチャットボットプランと同じ価格)では、少し物足りないかもしれません。