Anthropicの新しいAIモデルはPCを制御できる

Anthropicの新しいAIモデルはPCを制御できる

アンスロピックは昨春、投資家へのプレゼンテーションで、調査やメール返信、その他のバックオフィス業務を自律的に処理できるバーチャルアシスタントを支えるAIを開発する意向を示しました。同社はこれを「AIによる自己学習のための次世代アルゴリズム」と呼び、計画通りに進めば、将来的には経済の大部分を自動化できる可能性があると確信していました。

しばらく時間がかかりましたが、その AI が到来し始めています。

アンスロピックは火曜日、あらゆるデスクトップアプリを理解し、操作できるClaude 3.5 Sonnetモデルのアップグレード版をリリースしました。現在オープンベータ版となっている新しい「コンピュータ使用」APIを介して、このモデルはキー入力、ボタンクリック、マウスジェスチャーを模倣し、実質的にPCの前に座っている人間をエミュレートします。

「私たちはクロードに、画面上で何が起こっているかを理解し、利用可能なソフトウェアツールを使ってタスクを実行できるように訓練しました」と、AnthropicはTechCrunchに共有されたブログ記事に記しています。「開発者がクロードにコンピューターソフトウェアの使用を指示し、必要なアクセス権を与えると、クロードはユーザーが見ているスクリーンショットを確認し、正しい場所をクリックするためにカーソルを縦または横に何ピクセル動かす必要があるかを数えます。」

開発者は、Anthropic API、Amazon Bedrock、Google Cloud Vertex AI プラットフォームを通じて Computer Use を試すことができます。Computer Use 機能のない新しい 3.5 Sonnet はClaude アプリに展開されており、既存の 3.5 Sonnet モデルと比較してさまざまなパフォーマンス向上が図られています。

アプリの自動化

PC上のタスクを自動化できるツールは、決して目新しいアイデアではありません。数十年の歴史を持つRPAベンダーから、Relay、Induced AI、Automatといった新興企業まで、数え切れないほど多くの企業がこのようなツールを提供しています。

いわゆる「AIエージェント」の開発競争は、ますます熾烈になっています。「AIエージェント」という言葉は依然として明確に定義されていませんが、一般的にはソフトウェアを自動化できるAIを指します。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

一部のアナリストは、AIエージェントによって、企業がAIに注ぎ込んでいる数十億ドル規模の収益化が容易になる可能性があると指摘しています。企業もこれに同意するようです。キャップジェミニの最近の調査によると、企業の10%が既にAIエージェントを使用しており、82%が今後3年以内にAIエージェントを導入する予定です。

Salesforceは今夏、AIエージェント技術について華々しい発表を行い、Microsoftは昨日、AIエージェント構築のための新ツールを宣伝しました。独自のAIエージェントブランドを計画しているOpenAIは、この技術を超知能AIへの一歩と捉えています。

Anthropicは、AIエージェントのコンセプトを「アクション実行レイヤー」と呼んでおり、これにより新しい3.5 Sonnetはデスクトップレベルのコマンドを実行できます。Webブラウジング機能(AIモデルとしては初ではありませんが、Anthropicとしては初)により、3.5 SonnetはあらゆるWebサイトやアプリケーションを利用できます。

クロード 3.5 ソネット 新品
Anthropicの新しいAIはPC上のアプリを制御できる。画像クレジット: Anthropic

「人間は、例えば『このフォームに記入するには、自分のコンピューターとオンライン上のデータを使う』といった、クロードの行動を指示する具体的な指示を出すことで、制御を維持しています」と、アントロピックの広報担当者はTechCrunchに語った。「人間は必要に応じてアクセスを許可したり制限したりできます。クロードは、ユーザーの指示をコンピューターのコマンド(例:カーソルの移動、クリック、入力)に分解し、特定のタスクを実行します。」

ソフトウェア開発プラットフォームReplitは、新しい3.5 Sonnetモデルの初期バージョンを使用して、開発中のアプリを評価できる「自律検証ツール」を開発しました。一方、Canvaは、この新しいモデルが設計と編集のプロセスをどのようにサポートできるかを検討していると発表しています。

しかし、これは他のAIエージェントとどう違うのでしょうか?当然の疑問です。消費者向けガジェットのスタートアップ企業であるRabbitは、映画のチケットをオンラインで購入できるようなWebエージェントを開発しています。最近Amazonに買収されたAdeptは、ウェブサイトの閲覧やソフトウェアの操作を行うモデルをトレーニングしています。Twin Labsは、OpenAIのGPT-4oなどの既成モデルを用いてデスクトッププロセスを自動化しています。

Anthropic社は、新しい3.5 Sonnetは、SWE-bench Verifiedベンチマークにおいて、OpenAIのフラッグシップモデルo1よりもコーディングタスクにおいて優れたパフォーマンスを発揮する、より強力で堅牢なモデルであると主張しています。明示的に訓練されていないにもかかわらず、アップグレードされた3.5 Sonnetは、障害に遭遇すると自己修正してタスクを再試行し、数十または数百のステップを必要とする目標に向かって作業を進めることができます。

クロード 3.5 ソネット 新品
新しいClaude 3.5 Sonnetモデルの各種ベンチマークにおけるパフォーマンス。画像提供: Anthropic

しかし、秘書をまだ解雇しないでください。

航空券予約の変更など、航空券予約業務を支援するAIエージェントの能力をテストするために設計された評価において、新しい3.5 Sonnetはタスクの半分以下しか正常に完了しませんでした。返品手続きの開始などのタスクを含む別のテストでは、3.5 Sonnetは約3分の1の確率で失敗しました。

Anthropic は、アップグレードされた 3.5 Sonnet ではスクロールやズームなどの基本的な操作がうまくできず、スクリーンショットを撮ってそれをつなぎ合わせる方法が原因で「短命」のアクションや通知を見逃す可能性があることを認めています。

「Claude's Computer Useはまだ遅く、エラーが発生しやすい状態です」とAnthropicは投稿で述べています。「開発者の皆様には、リスクの低いタスクから探索を始めることをお勧めします。」

危険なビジネス

しかし、新型3.5ソネットは危険なほどの性能を持っているのだろうか?可能性はある。

最近の研究では、 OpenAIのGPT-4oのようにデスクトップアプリを使用できないモデルは、ジェイルブレイク技術による「攻撃」を受けた際に、ダークウェブ上の誰かに偽造パスポートを注文するなど、有害な「多段階エージェント行動」に積極的に関与することが明らかになりました。研究者によると、フィルターや安全対策で保護されたモデルであっても、ジェイルブレイクによって有害なタスクの実行率が高くなるという。

デスクトップアクセスを持つモデルが、アプリの脆弱性を悪用して個人情報を漏洩したり(あるいはチャットを平文で保存したり)するなど、より大きな被害をもたらす可能性は容易に想像できる。利用可能なソフトウェア的な手段に加え、このモデルのオンライン接続とアプリ接続は、悪意のある脱獄者にとっての手段となる可能性がある。

アントロピック社は、新型3.5ソネットのリリースにはリスクがあることを否定していない。しかし同社は、このモデルが実際にどのように使用されているかを観察することによるメリットが、最終的にはこのリスクを上回ると主張している。

「今日のより限定的で、比較的安全なモデルにコンピューターへのアクセスを与える方がはるかに良いと考えています」と同社は述べている。「これは、この低レベルで発生する潜在的な問題を観察し、そこから学び始めることで、コンピューターの使用と安全性の軽減策を段階的に、そして同時に構築できることを意味します。」

クロード 3.5 ソネット 新品
画像クレジット: Anthropic

アンスロピック社はまた、悪用を抑止するための措置を講じていると述べています。具体的には、新しい3.5ソネットをユーザーのスクリーンショットやプロンプトでトレーニングしないこと、トレーニング中にモデルがウェブにアクセスできないようにすることなどが挙げられます。同社は、ソーシャルメディアへの投稿、アカウントの作成、政府のウェブサイトへのアクセスなど、リスクが高いと認識される行動から3.5ソネットを「誘導」するための分類器を開発したと述べています。

米国総選挙が近づく中、アントロピックは、選挙に関連した自社モデルの悪用を軽減することに注力していると述べています。AIモデルのリスク評価を専門とする、米国AI安全研究所と英国安全研究所は、それぞれ独立した連携関係にある政府機関であり、新しい3.5 Sonnetの導入前にテストを行いました。

AnthropicはTechCrunchに対し、「必要に応じて」追加のウェブサイトや機能へのアクセスを制限する機能を備えていると述べ、例えばスパム、詐欺、誤情報などから保護している。安全対策として、同社はComputer Useがキャプチャしたスクリーンショットを少なくとも30日間保存しているが、この保存期間は一部の開発者にとって懸念材料となるかもしれない。

アントロピック社に対し、どのような状況でスクリーンショットを第三者(例えば法執行機関)に提供する可能性があるのか​​を尋ねたところ、広報担当者は「有効な法的手続きに基づくデータ提供の要請には応じる」と述べた。

「万能な方法はありません。Claudeの機能と責任ある使用のバランスをとるために、安全対策を継続的に評価し、改善していきます」とアントロピックは述べています。「コンピューター用バージョンのClaudeを使用する方は、Claudeをコンピューター上の特に機密性の高いデータから隔離するなど、こうしたリスクを最小限に抑えるための適切な予防措置を講じてください。」

うまくいけば、最悪の事態を防ぐのに十分でしょう。

より安価なモデル

今日の目玉はアップグレードされた 3.5 Sonnet モデルだったかもしれないが、Anthropic 社は Claude シリーズの中で最も安価で効率的なモデルである Haiku のアップデート バージョンも近日中にリリース予定であると発表した。

今後数週間以内にリリースされる予定の Claude 3.5 Haiku は、特定のベンチマークにおいて、かつて Anthropic の最先端モデルであった Claude 3 Opus のパフォーマンスに匹敵し、Claude 3 Haiku と同等のコストと「おおよその速度」を実現します。

「低レイテンシ、改善された指示追従性、より正確なツール使用を備えたClaude 3.5 Haikuは、ユーザー向け製品、専門的なサブエージェントタスク、購入履歴、価格、在庫データなどの膨大なデータからのパーソナライズされたエクスペリエンスの生成に最適です」とAnthropicはブログ投稿に書いています。

3.5 Haiku は、最初はテキストのみのモデルとして提供され、その後、テキストと画像の両方を分析できるマルチモーダル パッケージの一部として提供されます。

クロード 3.5 俳句
3.5 Haikuのベンチマークパフォーマンス。画像クレジット: Anthropic

では、3.5 Haikuがリリースされたら、3 Opusを使う理由がもっと増えるのでしょうか? Anthropicが6月に発表した3 Opusの後継機、3.5 Opusについてはどうでしょうか?

「Claude 3モデルファミリーの各モデルは、お客様それぞれに異なる用途があります」とAnthropicの広報担当者は述べています。「Claude 3.5 Opusはロードマップに載っており、できるだけ早く詳細をお知らせします。」

TechCrunchではAIに特化したニュースレターを配信しています!  毎週水曜日に受信ボックスに配信されますので、こちらからご登録ください。