自然言語を使ってあらゆるソフトウェアと対話できたらどうでしょう?プロンプトを入力すると、AIがそれを機械が理解できるコマンドに変換し、PCやスマートフォンでタスクを実行して、先ほど説明した目標を達成してくれると想像してみてください。
これが、ユーザーとあらゆるオペレーティング システムの間に位置するように設計された、AI を活用したカスタム UI レイヤーを構築している Cyber Manufacture Co. のブランド変更である Rabbit の背景にあるアイデアです。
リバプール大学で数学の学士号を取得したジェシー・リュ氏と、元カーネギーメロン大学の研究者であるアレクサンダー・リャオ氏によって設立された Rabbit は、リュ氏とリャオ氏の主張によれば、人間と同じようにデスクトップやモバイルのインターフェースを認識し、操作できる AI モデルを基盤としたプラットフォーム、Rabbit OS を開発しています。
「生成AIの進歩は、テクノロジー業界において、人間と機械のインタラクションの次のレベルを定義し確立するための幅広い取り組みを刺激してきました」と、Lyu氏はTechCrunchのメールインタビューで語った。「私たちは、成功の究極の決定要因は卓越したエンドユーザー体験を提供することにあると考えています。これまでの取り組みと経験を踏まえ、ユーザー体験を革新するには、特注の専用プラットフォームとデバイスが必要であることを認識しました。この基本原則は、Rabbitが現在採用している製品と技術スタックの基盤となっています。」
Rabbit は Khosla Ventures、Synergis Capital、Kakao Investment から 2,000 万ドルの資金提供を受けており、事情に詳しい情報筋によると、この新興企業の評価額は 1 億ドルから 1 億 5,000 万ドルだという。同社は、既存のソフトウェア上に自然言語インターフェースを重ねる試みを初めて行うわけではない。
GoogleのAI研究機関DeepMindは、AIにコンピューターの制御を教える複数のアプローチを研究してきました。例えば、飛行機の予約など、人間がキーボードやマウスを使って行う「指示に従う」タスクをAIが実行している様子をAIに観察させるといった手法です。上海交通大学の研究者たちは最近、ウェブナビゲーションAIエージェントをオープンソース化しました。このエージェントは、検索エンジンの使い方やオンラインでの商品の注文方法などを自ら理解できると主張しています。他にも、話題のAuto-GPTのようなアプリがあります。これは、AIスタートアップ企業OpenAIのテキスト生成モデルを活用して「自律的に」動作し、ウェブブラウザやワードプロセッサといったオンラインおよびローカルのアプリ、ソフトウェア、サービスとやり取りします。
しかし、Rabbitの直接的なライバルとなると、おそらくAdeptだろう。同社はACT-1と呼ばれるモデルを訓練するスタートアップ企業で、「月次コンプライアンスレポートを作成」や「この設計図の2点間に階段を描け」といったコマンドをAirtable、Photoshop、Tableau、Twilioといった既存ソフトウェアを用いて理解・実行できる。DeepMind、OpenAI、Googleの元エンジニアと研究者によって共同設立されたAdeptは、Microsoft、Nvidia、Atlassian、Workdayといった戦略的投資家から数億ドルの資金を調達しており、評価額は約10億ドルに達している。
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日
では、Rabbitは競争が激化するこの分野でどのように競争しようとしているのだろうか?Lyu氏は、異なる技術的アプローチを取ることで、と説明する。
Rabbitが開発しているのは、ロボティック・プロセス・オートメーション(RPA)、つまり自動化、コンピュータービジョン、機械学習を組み合わせてフォームへの入力やメールへの返信といった反復作業を自動化するソフトウェアロボットに似ているように聞こえるかもしれないが、Lyu氏はそれよりも高度なものだと主張する。Rabbitの中核となるインタラクションモデルは「複雑なユーザーの意図を理解し」、「ユーザーインターフェースを操作する」ことが可能で、最終的には(そして少し誇張しすぎるかもしれないが)「コンピューター上で人間の意図を理解する」ことができると彼は言う。
「このモデルは既に、Androidとウェブ上でUber、DoorDash、Expedia、Spotify、Yelp、OpenTable、Amazonといった、高頻度で利用される主要な消費者向けアプリと連携できます」とLyu氏は述べています。「来年には、このサポートを全てのプラットフォーム(Windows、Linux、macOSなど)とニッチな消費者向けアプリに拡張する予定です。」
Rabbitのモデルは、航空券の予約や予約といった機能を備えています。また、Photoshopに組み込まれた適切なツールを使って画像を編集することも可能です。
というか、いつかできるようになるでしょう。Rabbitのウェブサイトでデモを試してみたのですが、今のところモデルの機能は少々制限されていて、それがモデルを混乱させているようです。モデルに写真を編集するように指示したところ、どの写真を編集するかを指定するように指示されましたが、デモUIにはアップロードボタンどころか、画像のURLを貼り付けるフィールドすらないので、これは不可能です。
しかし、Rabbitモデルは確かに、Webアクセスを備えたChatGPTのように、世界中のWebを検索する必要がある質問には答えることができます。10月5日のニューヨーク発サンフランシスコ行きの最安航空券を尋ねたところ、約20秒後には、事実上正確、あるいは少なくとも妥当と思われる回答が返ってきました。さらに、このモデルはTechCrunchのポッドキャスト(例えば「Chain Reaction」)を少なくともいくつか正しくリストアップし、その点ではBing Chatの初期バージョンを凌駕していました。
Rabbitのモデルは、汚い爆弾の作り方の説明やホロコーストの正当性を問うような、より問題のある質問には反応しにくかった。明らかに、チームは過去の大規模言語モデルの失敗(初期のBing Chatの軌道から外れる傾向など)から学んでいるようだ。少なくとも、私のごく短いテストから判断すると。

「[当社のモデル]を活用することで、Rabbitプラットフォームは、専門スキルに関わらず、あらゆるユーザーがアプリケーション上で特定の目標を達成する方法をシステムに教えることを可能にします」とLyu氏は説明します。「[このモデル]は、集約されたデモやインターネット上で利用可能なデータから継続的に学習し、模倣することで、あらゆるアプリケーションの基盤となるサービスの『概念的な青写真』を作成します。」
リュ氏は、Rabbitのモデルは「摂動」に対してある程度は堅牢だと付け加えた。例えば、インターフェースが一貫して提示されなかったり、時間の経過とともに変化したりするといった状況に対しても、堅牢だ。画面録画アプリを使って、人がソフトウェアインターフェースを少なくとも一度は使用している様子を「観察」するだけでよいのだ。
今のところ、Rabbitモデルがどれほど堅牢なのかは明らかではありません。実際、Rabbitチーム自身も、少なくとも正確なところは把握していません。デスクトップ、スマートフォン、あるいはWeb UIを操作する際に発生する可能性のある無数のエッジケースを考えると、これはそれほど驚くべきことではありません。だからこそ、同社はモデルの構築に加えて、モデルをテスト、観察、改良するためのフレームワークと、将来のバージョンのモデルをクラウド上で検証・実行するためのインフラストラクチャを設計しているのです。
Rabbitは、自社プラットフォームをホストするための専用ハードウェアのリリースも計画している。ハードウェア製造の規模拡大の難しさ、ベンダーロックインに対する消費者の反発、そして最終的にはOpenAIの計画と競合する可能性を考えると、この戦略の賢明さには疑問を感じる。しかし、Lyu氏は(不思議なことに、このハードウェアが具体的に何をするのか、なぜ必要なのかについては詳しく教えてくれなかったが)、ロードマップが現時点でやや流動的であることを認めている。
「私たちは、自然言語インタラクションのためのプラットフォームをモバイルデバイス上で動作させるための、非常に手頃な価格の専用フォームファクターを開発しています」とリュウ氏は述べた。「これは私たちのプラットフォームにアクセスする最初のデバイスになります…独自のフォームファクターにより、より直感的で快適な新しいインタラクションパターンを設計できるようになり、既存のプラットフォームでは実行できない、あるいは許可されていないソフトウェアやモデルを自由に実行できるようになると考えています。」
Rabbitが提案するハードウェア戦略を推し進めるとすれば、ハードウェアだけがスケーリングの課題ではない。Rabbitが構築しているようなモデルには、アプリ内でタスクが成功裏に完了した事例が大量に必要になるだろう。そして、そうしたデータの収集は、コストがかかるだけでなく、非常に手間のかかるプロセスになりかねない。
例えば、DeepMindの研究の一つでは、システムのトレーニングデータを収集するために、240万回以上のコンピュータタスクのデモンストレーションを完了させるのに77人の人件費を支払わなければならなかったと研究者たちは記しています。これを外挿すると、問題の規模の大きさがはっきりと浮かび上がります。
2000万ドルは大きな成果をもたらす可能性がある。特にRabbitは現在Lyu氏の自宅で働く9人という小規模チームであるためだ(Lyu氏は年間のバーンレートを約25万ドルと見積もっている)。しかし、Rabbitがこの分野でより確立されたプレイヤーに追いつくことができるのか、そしてMicrosoftのWindows向けCopilotや、ChatGPTのプラグインエコシステム育成を目指すOpenAIの取り組みといった新たな挑戦者たちとどのように戦っていくのか、私は疑問に思っている。
しかし、Rabbitは野心的な企業であり、プラットフォームのライセンス供与、モデルの継続的な改良、そしてカスタムデバイスの販売を通じて、事業を維持できる収益を上げられると確信している。時が経てば分かるだろう。
「まだ製品はリリースしていませんが、初期のデモは数万人のユーザーを魅了しています」とリュウ氏は述べた。「Rabbitチームが開発する最終的な成熟モデルは、まだ収集していないデータと連携し、まだ設計していないベンチマークで評価されることになります。そのため、Rabbitチームはモデル単体ではなく、それをサポートするオペレーティングシステムに必要な装置群のフルスタックを構築しています。…Rabbitチームは、最先端の研究の価値を実現する最良の方法は、エンドユーザーに焦点を当て、強化され保護されたシステムを迅速に実稼働環境に導入することだと考えています。」