OpenAIは、タスクを自律的に実行するAIエージェント「Operator」をリリースした。

OpenAIは、タスクを自律的に実行するAIエージェント「Operator」をリリースした。

OpenAIのCEO、サム・アルトマン氏はブログ記事で、タスクを自動化しユーザーに代わって行動できるツールであるAIエージェントにとって、2025年は重要な年になるだろうと述べて今年をスタートさせた。

今、私たちは OpenAI の最初の本当の試みを目にしています。

OpenAIは木曜日、ウェブブラウザを制御し、特定のアクションを自律的に実行できる汎用AIエージェント「Operator」の研究プレビュー版をリリースすると発表した。Operatorは、まずChatGPTの200ドルのProサブスクリプションプランの米国ユーザー向けに提供される。OpenAIは、この機能を最終的にはPlus、Team、Enterpriseプランのより多くのユーザーに展開する予定だと述べた。

「[Operator]はまもなく他の国にも展開される予定です」と、OpenAIのCEOサム・アルトマン氏は木曜日のライブ配信で述べた。「残念ながら、ヨーロッパではもう少し時間がかかるでしょう。」

この初期の研究プレビューはoperator.chatgpt.comから入手できますが、OpenAIはまもなくOperatorをすべてのChatGPTクライアントに統合したいとしています。

オペレーターのホーム画面。画像提供: OpenAI

OpenAIによると、Operatorは旅行の宿泊施設の予約、レストランの予約、オンラインショッピングといったタスクの自動化を約束しています。Operatorのインターフェースでは、ショッピング、デリバリー、食事、旅行など、複数のタスクカテゴリーから選択でき、それぞれ異なる種類の自動化を可能にします。

ChatGPTユーザーがOperatorを起動すると、小さなウィンドウがポップアップ表示され、エージェントがタスクを完了するために使用する専用のWebブラウザと、エージェントが実行している具体的なアクションの説明が表示されます。Operatorは専用のブラウザを使用するため、ユーザーはOperatorの動作中でも画面を操作できます。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

OpenAIによると、OperatorはCUA(Computer-Using Agent)モデルを搭載しており、同社のGPT-4oモデルの視覚機能とOpenAIのより高度なモデルの推論機能を組み合わせている。CUAはウェブサイトのフロントエンドと対話するように訓練されているため、開発者向けAPIを使わずにさまざまなサービスを利用できる。

つまり、CUA は人間と同じようにボタンを使用したり、メニューを操作したり、Web ページ上のフォームに入力したりすることができます。

OpenAIは、DoorDash、eBay、Instacart、Priceline、StubHub、Uberなどの企業と協力して、Operatorがこれらの企業のサービス利用規約を遵守するように努めていると述べている。

OpenAIオペレーター
画像クレジット: OpenAI

OpenAIはTechCrunchに提供された資料の中で、「CUAモデルは、注文の送信やメールの送信など、外部的な副作用を伴うタスクを完了する前にユーザーの確認を求めるように訓練されています。これにより、ユーザーはモデルの動作を確定させる前に再確認できます」と述べています。「(CUAモデルは)既に様々なケースで有用であることが証明されており、私たちはその信頼性をより幅広いタスクに拡張することを目指しています。」

しかし、OpenAIはCUAが完璧ではないと警告している。同社は「CUAがあらゆるシナリオで確実に機能するとは現時点では期待していない」と述べている。

「現在、Operator は、詳細なスライドショーの作成、複雑なカレンダー システムの管理、高度にカスタマイズされた Web インターフェースや非標準の Web インターフェースとのやり取りなど、多くの複雑または特殊なタスクを確実に処理できません」と OpenAI はサポート ドキュメントに付け加えています。

OpenAIは、万全の注意を払うため、銀行取引など一部のタスクについては監視を義務付けています。これらのタスクはCUAとOperatorがほぼ単独で実行できます。例えば、クレジットカード情報の入力などはユーザーが引き継ぐ必要があります。OpenAIによると、Operatorはデータを収集したり、スクリーンショットを撮ったりすることはありません。

OpenAIはサポート資料の中で、「電子メールなど、特に機密性の高いウェブサイトでは、Operatorはユーザーによる積極的な監視を必要とし、モデルが起こす可能性のあるミスをユーザーが直接把握して対処できるようにします」と述べている。

これは確かにOperatorの有用性を制限することになるが、同時に、エージェントが幻覚を起こして、例えば住宅ローンの支払いをアクセントチェアに費やすような事態を防いでくれる。GoogleはProject MarinerというAIエージェントで同様のアプローチを採用しており、こちらもクレジットカード番号などの情報を入力しない。

制限事項

Operator には注目すべき制限がいくつかあります。

レート制限は、日単位とタスク単位の両方で設定されています。OpenAIによると、Operatorは複数のタスクを同時に実行できますが、これには「動的な制限」が適用されるとのことです。また、毎日リセットされる全体的な使用量制限もあります。

このリリース段階では、Operator はセキュリティ上の理由から、メールの送信(CUA はメール送信が可能ですが)やカレンダーイベントの削除といったタスクの実行を完全に拒否します。OpenAI は将来的にこの点を変更するとしていますが、具体的な変更時期は明らかにしていません。

Operatorは、特に複雑なインターフェース、パスワードフィールド、またはCAPTCHAチェックに遭遇すると、「スタック」することもあります。OpenAIによると、このような状況が発生した場合、Operatorはユーザーに操作を委ねます。

エージェント的な未来

OpenAI は、ライバル (Rabbit、Google、Anthropic のエージェントを参照) と比較して AI エージェントの開発がかなり遅れていますが、これはテクノロジに関する安全上のリスクと関係がある可能性があります。

AIシステムがWeb上でアクションを実行できるようになると、悪意のある攻撃者によるより危険なユースケースへの扉が開かれることになります。AIエージェントを自動化してフィッシング詐欺やDDoS攻撃を仕掛けたり、誰よりも早くコンサートのチケットを入手させたりすることも可能です。特にChatGPTのように広く利用されているツールにおいては、OpenAIがこうした悪用を防ぐための対策を講じることが重要です。

OpenAI は、少なくとも研究プレビューとしては、Operator は現在の形でリリースしても十分安全だと考えているようです。

OpenAIはウェブサイトで、「Operatorは、悪意のあるプロンプト、隠された指示、フィッシング攻撃に対するモデルの脆弱性を制限するツールを採用しています」と説明しています。「監視システムは、疑わしいアクティビティが検出されると実行を一時停止し、自動化されたパイプラインと人間によるレビューによって継続的に安全対策を更新します。」

Operatorは、OpenAIによるAIエージェント開発におけるこれまでで最も大胆な試みです。先週、OpenAIはTasksをリリースし、ChatGPTにリマインダーの設定や、毎日決まった時間にプロンプ​​トを実行するスケジュール設定といったシンプルな自動化機能を追加しました。

Tasksは、ChatGPTユーザーに馴染みのある必須の機能を提供し、ChatGPTをSiriやAlexaと同じくらい使いやすくしました。しかし、Operatorは、前世代のバーチャルアシスタントでは実現できなかった機能を備えています。

AIエージェントは、ChatGPTに続くAIの次なる大物として注目されています。これは、インターネットとPCの使い方を一変させる新技術です。エージェントは、単に情報を提供・処理するだけでなく、理論上は行動を起こし、実際に物事を実行できます。

OpenAI によるエージェントに関する最初の具体的な取り組みの発表により、このビジョンがいかに現実的であるかがすぐに明らかになるだろう。