確かに、AIはソネットを書いたり、ホーマー・シンプソンのニルヴァーナのカバーをそれなりに演奏したりできる。しかし、もし誰かが私たちの新たなテクノロジーの覇者を歓迎するなら、もっと実用的な能力が必要になるだろう。だからこそ、MetaとNvidiaは、ペンを使ったトリックから共同家事まで、あらゆることをシステムに実践させているのだ。
偶然にも、この2つのテクノロジー大手は今朝、基本的にシミュレートされた世界を巧みに利用してAIモデルに現実世界とやりとりする方法を教える方法に関する新たな研究を発表しました。
現実世界は複雑で混沌とした場所であるだけでなく、動きも遅いことが分かりました。ロボットの制御や、引き出しを開けて中に物を入れるといったタスクを学習するエージェントは、そのタスクを何百回、何千回も繰り返さなければならないかもしれません。それには数日かかるでしょう。しかし、現実世界をある程度リアルに再現した環境で実行させれば、わずか1、2分でほぼ同等の性能を習得できるでしょう。
シミュレーターの利用自体は目新しいものではありませんが、NVIDIAは大規模な言語モデルを適用することで、単純なAIがタスクをより効率的に実行できるように強化学習コードの作成を支援する自動化レイヤーを追加しました。彼らはこれを「Evolution-driven Universal REward Kit for Agent(エージェント向け進化駆動型ユニバーサル報酬キット)」、略して「EUREKA(エウレカ)」と呼んでいます(確かに、ちょっと無理がありますね)。
エージェントに物体を拾い上げて色で分類するように教えたいとしましょう。このタスクを定義してコーディングする方法はたくさんありますが、中には他の方法よりも優れているものもあります。例えば、ロボットは動作を少なくするべきでしょうか、それとも完了時間を短くするべきでしょうか?人間はこれらのコーディングを得意としていますが、どちらが最適かを見つけるには試行錯誤が必要になることもあります。Nvidiaのチームが発見したのは、コード学習済みのLLMが驚くほど優れたパフォーマンスを発揮し、報酬関数の有効性において人間をはるかに上回ったことです。LLMは自身のコードを反復処理することで改善を続け、さまざまなアプリケーションへの汎用化を支援します。

上記の見事なペントリックはシミュレーションによるものですが、EUREKAがなければはるかに少ない時間と専門知識で実現できました。この技術を用いたエージェントは、他の仮想的な器用さと移動に関する一連のタスクで高いパフォーマンスを発揮しました。どうやらハサミもかなり上手に使えるようで、これは…おそらく良いことなのでしょう。
もちろん、これらのアクションを現実世界で実現するのは、AIを実際に「具現化」するという、また別の課題です。しかし、これはNVIDIAが生成型AIを単なる言葉で捉えていないことを明確に示しています。
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日
未来のロボット仲間のための新しい住処
Metaも具現化AIの分野で熱心に研究を進めており、本日「Habitat」データセットの新バージョンをはじめとするいくつかの進歩を発表しました。最初のバージョンは2019年にリリースされており、基本的にはAIエージェントが移動できる、ほぼフォトリアリスティックで綿密に注釈が付けられた3D環境のセットでした。繰り返しになりますが、シミュレートされた環境自体は目新しいものではありませんが、Metaはそれらをより容易に入手し、活用できるようにしようとしていました。
その後、バージョン2.0がリリースされ、よりインタラクティブで物理的にリアルな環境がさらに充実しました。そして、これらの環境に配置できるオブジェクトのライブラリの構築も開始されました。これは多くのAI企業が取り組む価値があると認識しているものです。
Objaverse へようこそ: AI が遊べる 80 万点の仮想小道具
今では、人間のアバターがVRを介して空間を共有する機能を備えたHabitat 3.0が登場しています。つまり、人間、あるいは人間の行動を訓練されたエージェントがロボットと一緒にシミュレーターに入り、ロボットや環境と同時にインタラクションできるようになるのです。
シンプルに聞こえますが、これは非常に重要な機能です。例えば、ロボットにリビングルームの掃除を学習させたいとします。例えば、コーヒーテーブルにある食器をキッチンに運び、散らかった衣類を洗濯かごに入れるといった動作です。ロボットが単独で行動する場合、この動作を学習しますが、近くを歩き回っている人や、場合によってはロボットの代わりに作業の一部をこなす人がいると、簡単に中断されてしまう可能性があります。しかし、人間、あるいは人間に似たエージェントが同じ空間を共有していれば、ロボットは数秒で何千回も同じ動作を繰り返し、人間と協力したり、その周囲で作業したりすることを学習できます。
彼らは、清掃作業を「社会的再配置」と呼び、もう一つの重要なタスクを「社会的ナビゲーション」と呼んでいます。これは、例えば、声が聞こえる範囲に留まるため、あるいは安全上の理由から見守るために、ロボットが目立たないように誰かの後をついて回る必要があることを意味します。病院で誰かをトイレまで連れて行く小さなロボットを想像してみてください。

彼らがHSSD-200と呼ぶ新しい3Dインテリアデータベースは、環境の忠実度も向上させています。彼らは、これらの高忠実度シーン約100個でトレーニングを行うと、低忠実度シーン10,000個でトレーニングを行うよりも優れた結果が得られることを発見しました。
Meta氏はまた、ボストン・ダイナミクスのSpotとHello RobotのStretch向けの新しいロボットシミュレーションスタック「HomeRobot」についても言及した。彼らは、基本的なナビゲーションおよび操作ソフトウェアを標準化することで、この分野の研究者がイノベーションが待ち受けるより高度な研究に集中できるようになることを期待している。
Habitat と HomeRobot は MIT ライセンスのもとで GitHub ページで公開されており、HSSD-200 は Creative Commons 非営利ライセンスのもとで公開されているので、研究者の皆さん、ぜひ活用してください。
デヴィン・コールドウェイはシアトルを拠点とする作家兼写真家です。
彼の個人ウェブサイトは coldewey.cc です。
バイオを見る