DeepMindのRoboCatは、さまざまなロボットタスクの実行を学習します。

DeepMindのRoboCatは、さまざまなロボットタスクの実行を学習します。

DeepMindは、「RoboCat」と呼ばれるAIモデルを開発したと発表した。このモデルは、様々なロボットアームのモデルを用いて幅広いタスクを実行できる。それ自体は特に目新しいものではないが、DeepMindは、このモデルが複数のタスクを解決し、適応し、しかも実世界の様々なロボットを用いて実行できる初のモデルであると主張している。

「単一の大規模モデルが複数の実際のロボットの形態における多様なタスクを解決でき、新しいタスクや形態に素早く適応できることを実証しました」と、DeepMindの研究科学者であり、RoboCatチームの共同貢献者であるアレックス・リー氏は、TechCrunchとの電子メールインタビューで語った。

RoboCatは、テキスト、画像、イベントを分析し、それに基づいて行動できるDeepMindのAIモデルGatoに着想を得ており、シミュレーションと現実世界のロボットから収集された画像と行動データで学習しました。Lee氏によると、これらのデータは、仮想環境内の他のロボット制御モデル、人間によるロボット制御、そしてRoboCat自体の以前のバージョンから得られたものです。

RoboCatを訓練するために、DeepMindの研究者たちはまず、人間が操作するロボットアームを用いたタスクやロボットのデモンストレーションを100~1,000件収集しました。(ロボットアームがギアを拾ったりブロックを積み上げたりする様子を想像してみてください。)次に、RoboCatをそのタスクに合わせて微調整し、平均1万回そのタスクを練習する特殊な「スピンオフ」モデルを作成しました。

研究者たちは、スピンオフモデルによって生成されたデータとデモンストレーションデータの両方を活用して、RoboCat のトレーニングデータセットを継続的に拡大し、その後の新しいバージョンの RoboCat をトレーニングしました。

ディープマインド ロボキャット
画像クレジット: DeepMind

RoboCatモデルの最終バージョンは、合計253のタスクでトレーニングされ、シミュレーションと現実世界の両方で、これらのタスクの141種類のバリエーションでベンチマークされました。DeepMindは、数時間にわたって収集された1,000件の人間による操作デモンストレーションを観察した後、RoboCatはさまざまなロボットアームの操作を学習したと主張しています。

RoboCat は 2 本足のアームを備えた 4 種類のロボットでトレーニングされていましたが、このモデルは 3 本指のグリッパーと 2 倍の数の制御可能な入力を備えたより複雑なアームに適応することができました。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

RoboCatがロボット制御AIモデルの決定版と謳われるのを恐れてか、DeepMindのテストでは、タスクごとの成功率が13%から99%と、大きくばらつきました。これはトレーニングデータに1,000回のデモン​​ストレーションが含まれている場合の成功率です。デモンストレーション回数が半分であれば、当然ながら成功率は低くなります。

それでも、いくつかのシナリオでは、RoboCat はわずか 100 回のデモン​​ストレーションで新しいタスクを学習できたと DeepMind は主張しています。

さらに、リー氏は、ロボキャットがロボット工学における新たな課題を解決するための障壁を下げる先駆けとなる可能性があると考えています。

「新しいタスクのデモンストレーションを限られた回数行うことで、ロボキャットは新しいタスクに合わせて微調整することができ、その結果、より多くのデータを自ら生成してさらに改善することができます」と彼は付け加えた。

今後、研究チームは、RoboCat に新しいタスクを完了するように教えるために必要なデモンストレーションの数を 10 回未満に減らすことを目指しています。

カイル・ウィガーズは2025年6月までTechCrunchのAIエディターを務めていました。VentureBeatやDigital Trendsに加え、Android Police、Android Authority、Droid-Life、XDA-Developersといった様々なガジェットブログにも記事を寄稿しています。音楽療法士のパートナーとマンハッタンに在住。

バイオを見る