Covariantはロボット向けのChatGPTを構築しています

Covariantはロボット向けのChatGPTを構築しています

Covariantは今週、RFM-1(Robotics Foundation Model 1)のリリースを発表しました。カリフォルニア大学バークレー校発の人工知能スピンアウト企業の共同創業者兼CEOであるピーター・チェン氏は、TechCrunchに対し、このプラットフォームについて「基本的には大規模言語モデル(LLM)ですが、ロボット言語向けです」と述べています。

RFM-1は、Covariant社のBrain AIプラットフォームの導入から収集された膨大なデータの中から生まれた成果です。同社は顧客の同意を得て、LLMデータベースに相当するロボットを開発してきました。

「RFM-1のビジョンは、今後数十億台ものロボットを動かすことです」とチェン氏は語る。「Covariantではすでに多くのロボットを倉庫に導入し、成功を収めています。しかし、私たちが目指すのはそれだけではありません。製造業、食品加工、リサイクル、農業、サービス業、そして家庭にもロボットを普及させたいと考えています。」

このプラットフォームは、多くのロボット企業が「汎用」システムの将来について議論する中で立ち上げられました。Agility、Figure、1X、Apptronikといったヒューマノイドロボット企業の突如の参入は、この議論において重要な役割を果たしました。このフォームファクターは、特に適応性(モデルとなった人間とよく似ている)に優れていますが、搭載されているAI/ソフトウェアシステムの堅牢性は全く別の問題です。

現時点では、Covariantのソフトウェアは主に、ビンピッキングなどの倉庫内での様々な一般的な作業を行う産業用ロボットアームに導入されています。ヒューマノイドロボットへの導入は現時点では行われていませんが、同社はある程度のハードウェア非依存を約束しています。

「私たちは、より汎用的なロボットハードウェア分野で行われている多くの取り組みを高く評価しています」とチェン氏は語る。「知能の変曲点とハードウェアの変曲点が結びつくことで、ロボットアプリケーションはさらに爆発的に増加するでしょう。しかし、特にハードウェアの面では、多くのアプリケーションがまだ完全にはそこに達していません。演出されたビデオの域を超えるのは非常に困難です。実際にヒューマノイドと交流したことがある人はどれくらいいるでしょうか?それが成熟度を物語っています。」

画像クレジット: Covariant

しかし、Covariant社は、ロボットの意思決定プロセスにおけるRFM-1の役割に関して、人間との比較をためらっていません。同社のプレスリリースによると、このプラットフォームは「ロボットに人間のような推論能力を提供し、Generative AIが商用ロボットに言語と物理世界へのより深い理解を与えることに初めて成功した事例です」とのことです。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

これは、抽象的な概念、あるいは哲学的な概念との比較においても、また、時間の経過とともに現実世界で実際にどのような効果をもたらすかという点においても、主張には慎重を期さなければならない領域の一つです。「人間のような推論能力」は、幅広い概念であり、様々な人にとって様々な意味を持ちます。ここでこの概念は、現実世界のデータを処理し、目の前のタスクを実行するための最善の行動方針を決定するシステムの能力に当てはまります。

これは、一つの作業を無限に繰り返し実行するようにプログラムされた従来のロボットシステムからの脱却です。このような単一目的ロボットは、自動車組立ラインを皮切りに、高度に構造化された環境で活躍してきました。作業内容にわずかな変更がない限り、ロボットアームは作業を中断することなく何度も繰り返し実行し、その日の作業を終えて、長年の忠誠に報いる金の懐中時計を受け取るまで、その作業は続きます。

しかし、ほんのわずかな違いでもすぐに故障してしまう可能性があります。例えば、物体がベルトコンベア上に正確に配置されていなかったり、照明の調整によって搭載カメラの性能が影響を受けたりした場合などです。こうした違いは、ロボットの実行能力に大きな影響を与える可能性があります。では、そのロボットに新しい部品や素材、あるいは全く異なるタスクを扱わせようとするとどうなるか想像してみてください。それはさらに困難です。

従来、ここでプログラマーが介入します。ロボットの再プログラムが必要になります。多くの場合、工場の現場以外の人が関与します。これはリソースと時間の大きな浪費です。これを回避するには、次の2つのいずれかを行う必要があります。1) 現場の作業員がコードを学習する。2) ロボットとより自然なインタラクションを実現する新しい方法を開発する。

前者を実現できれば素晴らしいのですが、企業が資金を投資し、必要な時間を待つ用意があるとは考えにくいでしょう。後者こそ、CovariantがRFM-1で実現しようとしていることです。「ロボット用のChatGPT」は完璧なアナロジーではありませんが、妥当な表現と言えるでしょう(特に創設者のOpenAIとのつながりを考えると)。

顧客の視点から見ると、このプラットフォームはテキストフィールドとして表示されます。これは、消費者向けの生成AIの現在のイテレーションによく似ています。「リンゴを拾う」などのテキストコマンドをキーボードまたは音声で入力すると、システムはトレーニングデータ(形状、色、サイズなど)を使用して、目の前にあるオブジェクトの中でその説明に最も近いものを特定します。

RFM-1はその後、過去の学習データに基づいて最善の行動方針を決定するために、ビデオ映像(本質的にはシミュレーション)を生成します。この最後の部分は、私たちの脳が行動を実行する前に、その潜在的な結果を予測する仕組みに似ています。

ライブデモでは、システムは「赤い物体を拾う」といった入力や、さらに意味的に複雑な「靴を履く前に足につけるものを拾う」といった入力にも反応し、ロボットはそれぞれリンゴと靴下を正しく拾うことができました。

このシステムの将来性について議論する際には、多くの壮大なアイデアが飛び交う。少なくとも、Covariantの創業者たちは素晴らしい経歴の持ち主だ。チェン氏はバークレー大学で、Covariantの共同創業者兼チーフサイエンティストであるピーター・アビール氏の指導の下、AIを学んだ。アビール氏は、チェン氏がChatGPTに入社した1か月後の2016年に、OpenAIの初期社員にもなった。Covariantは翌年に設立された。

チェン氏は、同社は新しいRFM-1プラットフォームが、Covariantソフトウェアがすでに導入されているハードウェアの「大多数」で動作すると予想していると述べた。

ブライアン・ヒーターは、2025年初頭までTechCrunchのハードウェア編集者を務めていました。Engadget、PCMag、Laptop、そして編集長を務めたTech Timesなど、数々の大手テクノロジー系メディアで活躍してきました。Spin、Wired、Playboy、Entertainment Weekly、The Onion、Boing Boing、Publishers Weekly、The Daily Beastなど、様々なメディアに寄稿しています。Boing Boingのインタビューポッドキャスト「RiYL」のホストを務め、NPRのレギュラーコメンテーターとしても活躍しています。クイーンズのアパートでは、ジュニパーという名のウサギと暮らしています。

バイオを見る