学習は、ロボット工学全体の中でも最も刺激的なフロンティアと言えるでしょう。この分野自体は数十年前に遡ります。例えば1980年代には、デモンストレーションによる学習において画期的な進歩がもたらされましたが、カーネギーメロン大学(CMU)、マサチューセッツ工科大学(MIT)、カリフォルニア大学バークレー校(UCバークレー)といった大学による数多くの研究プロジェクトは、ロボットが人間とほぼ同様に学習する未来を示唆しています。
本日、TechCrunch Disruptのハードウェア ステージで、Toyota Research Institute (TRI) は、文字通り一夜にしてロボットに新しいスキルを教えることができる研究の進歩を披露します。
「その速さは驚くべきものです」とTRIのCEO兼チーフサイエンティスト、ギル・プラット氏は語る。「機械学習では、つい最近まで、機能するとはいえ何百万もの訓練事例が必要になるというトレードオフがありました。物理的な作業では、それほど多くの訓練事例を扱う時間はなく、1万件に達する前に機械が故障してしまうのです。今では数十件で済むようです。数十件という理由は、訓練事例に多様性を持たせる必要があるからです。しかし、場合によっては、それよりも少ない場合もあります。」
TRIが実証したシステムは、従来のロボット学習技術と拡散モデルを組み合わせたもので、安定拡散モデルなどの生成AIモデルに用いられるプロセスに類似しています。TRIの研究部門によると、この手法を用いてロボットに60以上のスキルを学習させており、現在もその数は増え続けています。しかし、既存のモデルだけでは問題を解決することはできません。
「[大規模言語モデル]の登場により、ロボットに高度な認知知能を付与する技術が大きく進歩しました」と、TRI上級研究科学者のベンジャミン・バーチフィール氏は述べています。「物を拾うロボットの場合、物体を指定する代わりに、コーラの缶を拾うように指示できます。あるいは、光る物体を拾うように指示することもできますし、同じことをフランス語で実行することも可能です。これは本当に素晴らしいことですが、ロボットにUSBデバイスを差し込んだり、ティッシュを拾わせたりするには、これらのモデルは機能しません。非常に便利なのですが、問題のその部分は解決していません。私たちは、その欠けている部分を埋めることに注力しており、今私たちが本当に興奮しているのは、実際にシステムができ、基礎が正しいということです。」
この手法の利点の一つは、多様な環境で機能するスキルをプログラムできることです。ロボットは構造化されていない、あるいは構造化されていない環境では動作が困難であるため、これは重要な側面です。例えば、ロボットが道路や住宅よりも倉庫で動作しやすいのは、まさにこのためです。倉庫は一般的に、人やフォークリフトなどの移動物体を移動させる以外は、ほとんど変化のない構造で構築されます。
理想的には、どんな困難にも耐えられるロボットが求められます。例えば、家庭での生活です。TRIの主な焦点の一つは、高齢者が自立した生活を続けられるよう支援するシステムの開発です。これは、トヨタの母国である日本のような高齢化が進む地域では、ますます大きな懸念事項となっています。目標の一つは、様々な環境で動作し、その変化にも対応できるシステムの開発です。
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日
人は家具を動かしたり、散らかしたままにしたり、物を元の場所に戻さないことがあります。従来、ロボット工学者はこうした状況に対処するために、ある種の力ずくのアプローチをとらざるを得ませんでした。つまり、エッジケースや逸脱を予測し、それらを事前に処理できるようにロボットをプログラミングするのです。
ロボットが現実世界で宣伝通りの機能を果たすためには、これは重要な点です。同様に重要なのは、ロボット工学者が「汎用」システムと呼ぶものについてです。汎用システムとは、学習して新しいタスクに適応できるロボットのことです。これは、一つのことを何度も繰り返してうまくこなすように訓練された、従来の単一目的システムからの根本的な転換です。しかしながら、真に「汎用」と言えるものには、まだ程遠いことを忘れてはなりません。

TRIのロボット工学者たちは、ロボット学習でよく使われるツールである遠隔操作を通して、システムを学習させることから始めます。このプロセスは、システムに同じタスクを何度も繰り返し実行させるため、単調で数時間かかることもあります。
「ロボットを遠隔操作してデモンストレーションを行うようなものだと考えていただければと思います」とバーチフィール氏は言います。「現在、その数は通常数十台です。基本的な動作を教えるには通常1時間ほどかかります。このシステムは、ロボットをどのように操作するかをあまり気にしません。私たちが最近導入した、より器用な動作を可能にする遠隔操作デバイスは、ロボットと人間の間で実際に力を伝達するものです。つまり、人間はロボットが世界と相互作用しているときに、ロボットが何をしているのかを感じることができるのです。これにより、他の方法では調整できない他の動作が可能になります。」
システムは、視覚や力覚フィードバックなど、提示されるすべてのデータを活用して、タスクのより完全な全体像を構築します。収集されたデータに何らかの重複(例えば、視覚と触覚の関連付け)があれば、内蔵センサーを用いてその動作を再現できます。力覚フィードバックは、例えばツールを正しく保持しているかどうかを理解する鍵となります。
TRIは、触覚を用いた初期実験は「非常に有望」だと述べている。例えば、パンケーキをひっくり返す動作は30回中27回成功し、90%の成功率を記録した。これは、触覚を用いない実験の83%と比べてわずかに改善された。一方、生地を伸ばす動作(96%)と料理を盛り付ける動作(90%)では、成功率は非常に低い。触覚を用いない場合、これらの成功率はそれぞれ0%と10%にまで低下する。
訓練のこの部分が完了すると、システムは放置され、ニューラルネットワークは夜通し訓練を開始します。計画通りに進めば、研究者が翌朝研究室に戻る頃には、スキルは完全に学習されているでしょう。

このシステムは拡散ポリシーを利用しており、これは「ロボットの視覚運動ポリシーを条件付きノイズ除去拡散プロセスとして表現することで、ロボットの行動を生成する新しい方法」であると、研究者らは述べています。簡単に言えば、このシステムはプロセスから「ノイズ」を除去することで、ランダム化された画像に意味を見出します。繰り返しになりますが、これは生成AIの世界でこれまで見てきた多くのものと似ていますが、この研究ではプロセスを利用してロボットの行動を生成します。
最近、ロボットの学習について自分が間違っていたことに気づきました。以前は、ロボットを教育する様々な方法は互いに矛盾すると考えていました。最終的には、優れた方法が1つあれば、他の方法に勝ってしまうと考えていたのです。しかし、人間が学習するのと同じように、様々な方法を組み合わせることが今後の道筋となることは明らかです。この中でもう一つ重要な側面は、フリートラーニングです。これは、実質的に中央からアクセス可能なクラウドベースのシステムであり、ロボットはこれを用いて互いの経験を教え、学習することができます。
今後の重要なステップの一つは、ロボットの学習を支援する大規模行動モデルの構築です。「私たちはスケールアップを目指しています」と、ロボティクス研究担当副社長のラス・テドレイク氏は述べています。「既に60のスキルを訓練済みで、年末までに100、来年末までに数千のスキルを訓練する予定です。スケールアップの法則はまだよく分かっていません。全く新しい何かが生まれるまで、どれだけのスキルを訓練する必要があるのでしょうか?現在、その点を研究中です。私たちは今、こうした非常に基本的な疑問を問いかけ、どのようなタイムラインにあるのかを把握するための法則を探し始められる段階にあります。」

将来的には、研究チームはこうした発見が、より高性能なロボットの開発につながることを期待しています。ロボットは、新しい状況で新しい物体と相互作用しながら、訓練された行動に基づいて即座に行動を生成できます。多くの場合、タスクは小さな行動の集合で構成されており、それらをつなぎ合わせて実行することができます。もちろん、すべては時が経てば実現するでしょう。
一方、プラット氏は木曜日に開催されるDisruptのハードウェア・ステージに、ボストン・ダイナミクスAI研究所のエグゼクティブ・ディレクター、マーク・レイバート氏と共に参加する予定だ。二人はこれらの画期的な技術などについて議論する予定だ。