Anthropic は、Claude 3.7 Sonnet という新しいフロンティア AI モデルをリリースします。これは、ユーザーが望む限り質問について「考える」ように設計されたものです。
アントロピックは、Claude 3.7 Sonnetを業界初の「ハイブリッドAI推論モデル」と呼んでいます。これは、質問に対してリアルタイムの回答と、より熟考された「考え抜かれた」回答の両方を単一のモデルで提供できるためです。ユーザーは、AIモデルの「推論」能力をアクティブにするかどうかを選択できます。アクティブにすると、Claude 3.7 Sonnetは短時間または長時間「思考」します。
このモデルは、AnthropicのAI製品のユーザーエクスペリエンスを簡素化するための幅広い取り組みを表しています。今日のAIチャットボットの多くは、モデル選択に手間取る煩わしいツールを備えており、ユーザーはコストや機能が異なる複数のオプションから選択せざるを得ません。Anthropicのような研究機関は、ユーザーがその手間を省き、1つのモデルですべての作業を実行できるようにしたいと考えています。
アンスロピック社によると、Claude 3.7 Sonnetは月曜日に全ユーザーと開発者に公開される予定だが、同モデルの推論機能にアクセスできるのは、アンスロピック社のプレミアムClaudeチャットボットプランに加入しているユーザーのみだ。無料のClaudeユーザーには、推論機能のない標準版のClaude 3.7 Sonnetが提供される。アンスロピック社によると、このバージョンは同社の従来の最先端AIモデルであるClaude 3.5 Sonnetよりも性能が優れているという。(そう、同社は数字を飛ばしたのだ。)
Claude 3.7 Sonnetのコストは、入力トークン100万個あたり3ドル(つまり、「ロード・オブ・ザ・リング」シリーズ全巻よりも長い約75万語をClaudeに入力するのに3ドル)、出力トークン100万個あたり15ドルです。これは、OpenAIのo3-mini(入力トークン100万個あたり1.10ドル、出力トークン100万個あたり4.40ドル)やDeepSeekのR1(入力トークン100万個あたり55セント、出力トークン100万個あたり2.19ドル)よりも高価ですが、o3-miniとR1はClaude 3.7 Sonnetのようなハイブリッドモデルではなく、あくまで推論モデルであることに留意してください。

Claude 3.7 Sonnet は、AI パフォーマンスを向上させる従来の方法が徐々に減少するにつれて、多くの AI ラボが採用してきた手法である「推論」が可能な Anthropic 初の AI モデルです。
o3-mini、R1、GoogleのGemini 2.0 Flash Thinking、xAIのGrok 3 (Think) などの推論モデルは、質問に答える前により多くの時間と計算能力を使います。これらのモデルは問題をより小さなステップに分割することで、最終的な答えの精度を向上させる傾向があります。推論モデルは必ずしも人間のように思考したり推論したりするわけではありませんが、そのプロセスは演繹をモデル化しています。
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日
最終的には、アントロピックはユーザーが事前にコントロールを選択する必要なく、クロード自身が質問についてどれくらい「考える」べきかを判断できるようにしたいと考えていると、アントロピックの製品・研究リーダーであるダイアン・ペン氏はTechCrunchのインタビューで語った。
「人間が、すぐに答えられる質問と、考えることを必要とする質問のそれぞれに別々の脳を持っていないのと同じように、私たちは推論を、別のモデルで提供されるものではなく、フロンティアモデルが持つべき機能の1つとして、他の機能とスムーズに統合されるものと考えています」と、アントロピックはTechCrunchに共有されたブログ記事に記している。
アントロピック社は、クロード3.7ソネットが「見えるスクラッチパッド」を通じて内部計画段階を公開することを許可していると述べている。ペン氏はTechCrunchに対し、ユーザーはクロードのほとんどの質問に対する思考プロセスを完全に見ることができるが、信頼性と安全性の観点から一部は編集される可能性があると語った。

アントロピック社は、クロードの思考モードを、難解なコーディング問題やエージェントタスクといった現実世界のタスク向けに最適化したと述べています。アントロピック社のAPIを利用する開発者は、思考の「予算」を制御し、速度とコストをトレードオフして回答の質を高めることができます。
実世界のコーディングタスクを測定するテストであるSWE-Benchでは、Claude 3.7 Sonnetの精度は62.3%、OpenAIのo3-miniモデルの精度は49.3%でした。また、小売環境におけるシミュレーションユーザーや外部APIとのAIモデルのインタラクション能力を測定する別のテストであるTAU-Benchでは、Claude 3.7 Sonnetの精度は81.2%、OpenAIのo1モデルの精度は73.5%でした。
アントロピック社はまた、Claude 3.7 Sonnetは以前のモデルよりも質問への回答を拒否する頻度が少なくなると発表し、有害な質問と無害な質問をより細かく区別できるようになったと主張しています。アントロピック社によると、Claude 3.5 Sonnetと比較して、不要な回答拒否が45%減少しました。これは、他のAI研究機関がAIチャットボットの回答制限のアプローチを見直している時期と重なります。
Claude 3.7 Sonnetに加え、AnthropicはClaude Codeと呼ばれるエージェント型コーディングツールもリリースします。研究プレビューとしてリリースされるこのツールを使うと、開発者はターミナルから直接Claudeを通じて特定のタスクを実行できます。
デモでは、Anthropicの従業員がClaude Codeを使って「このプロジェクト構造を説明してください」といった簡単なコマンドでコーディングプロジェクトを分析する方法を披露しました。開発者はコマンドラインで平易な英語を使ってコードベースを変更できます。Claude Codeは変更を加えるたびに編集内容を説明してくれるだけでなく、プロジェクトのエラーテストやGitHubリポジトリへのプッシュも行います。
アントロピックの広報担当者はTechCrunchに対し、Claude Codeは当初は「先着順」で限られた数のユーザーに提供される予定だと語った。
AIラボが猛烈な勢いで新しいAIモデルをリリースしている今、AnthropicはClaude 3.7 Sonnetをリリースします。Anthropicはこれまで、より体系的で安全性を重視したアプローチを採用してきました。しかし今回は、他社をリードすることを目指しています。
しかし、どれくらいの期間続くのかは疑問だ。OpenAIは独自のハイブリッドAIモデルのリリースが近いかもしれない。同社のCEO、サム・アルトマン氏は、リリースは「数ヶ月以内」と述べている。