ディープサイエンス:ロボットと世界

ディープサイエンス:ロボットと世界

研究論文はあまりにも頻繁に発表されるため、全てを読むのは容易ではありません。特に機械学習の分野では顕著で、現在ではほぼあらゆる業界や企業に影響を与え、論文も発表されています。このコラムでは、特に人工知能(AI)分野に限らず、近年の最も関連性の高い発見や論文をいくつか取り上げ、それらがなぜ重要なのかを説明します。

今回の号では、AIやロボット工学と現実世界とのインターフェースに関する項目を多数取り上げています。もちろん、この種の技術の応用の多くは現実世界に応用されていますが、本研究では特に、現実と仮想世界の境界における双方の制約によって生じる避けられない困難について考察しています。

ロボット工学において常に問題となるのは、現実世界では物事がいかに遅く進むかということです。もちろん、特定のタスクを訓練されたロボットの中には、超人的なスピードと敏捷性で実行できるものもありますが、ほとんどのロボットはそうではありません。ロボットは観察結果を仮想世界のモデルと頻繁に照合する必要があるため、物を拾って置くといったタスクに数分かかることもあります。

この問題で特に苛立たしいのは、ロボットは最終的に現実世界で運用されるため、現実世界こそがロボットの訓練に最適な場所であるということです。この問題に対処する一つの方法は、現実世界でのテストの1時間1時間の価値を高めることであり、これがGoogleのこのプロジェクトの目標です。

やや技術的な内容のブログ記事で、チームは複数のロボットが複数のタスクを学習・実行する際のデータを活用し、統合する課題について説明しています。複雑な内容ではありますが、タスクの割り当てと評価のための統一されたプロセスを構築し、それに基づいて将来の割り当てと評価を調整することについて述べています。より直感的に言えば、タスクAの成功が、たとえ異なるタスクであっても、ロボットのタスクBの能力を向上させるプロセスを構築しているということです。

人間も同じように練習します。例えば、ボールを上手に投げる方法を知っていれば、ダーツを投げる際に有利になります。貴重な実世界でのトレーニングを最大限に活用することは重要であり、これは、そこにはまだ多くの最適化の余地があることを示しています。

もう一つのアプローチは、シミュレーションの質を向上させ、ロボットが知識を現実世界に持ち込んだ際に遭遇する状況に近づけることです。これが、アレンAI研究所のTHORトレーニング環境と、その最新のシステムであるManipulaTHORの目標です。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

ロボットが仮想環境内を移動し、アイテムを移動するアニメーション画像。
画像クレジット:アレン研究所

THORのようなシミュレーターは、AIが部屋の中で特定の物体を見つけるための移動方法といった基本的な知識を学習できる現実世界の類似物を提供します。これは驚くほど難しいタスクです!シミュレーターは、リアリティの必要性とそれを実現する計算コストのバランスを取ります。その結果、ロボットエージェントが何千時間もの仮想「時間」を費やして、プラグを差し込んだり、関節にオイルを差したりすることなく、何度も試行錯誤できるシステムが実現します。

ManipulaTHORはシミュレータ内でロボットに物理的な存在感を与え、引き出しなどの物体とリアルにインタラクションできるようにします。家庭用ロボットにペンを頼んだ場合、オフィス内でペンを探す最適な方法は?物を倒さずに効率的に引き出しを開けるには?ペンを掴んで引き出しを閉めるには?こうしたタスクは、AI2-THORなどの物理シミュレーションを通して行うのが最適です。

しかし、人間が義肢や外骨格をどのように使用するかを評価する場合など、現実世界が唯一の情報源となる場合もあります。シミュレーションデータでは不十分で、実際の使用状況が重要です。この陸軍研究所のプロジェクトでは、特に足首をサポートする「エクソブーツ」が、より複雑な身体信号に注目して、提供する補助を調整する方法を研究しています。

兵士はブーツと膝に小さな外骨格を装着してトレッドミルの上を歩いています。
画像クレジット: ARL

新たな研究では、脳と筋肉の信号に加え、動きのトラッキングも収集し、ブーツが迅速かつアルゴリズム的に認識できる身体状態の語彙を作成することを目指しました。ユーザーが「疲れた」ボタンや「重い荷物を背負っている」スイッチを押す必要はありません。これを自動的に理解できるかどうかが、ブーツが便利なツールになるか、不器用な重荷になるかの違いとなるかもしれません。

同様の問いが、ARLの別のプロジェクトで異なる形で取り上げられています。それは、兵士とロボットが戦場で自然かつ効率的にコミュニケーションをとれるようにするための会話モデルを構築することです。自動化システムが人間と連携し、一般的な要求に応答するだけでなく、より高次の目標も達成できることは、戦場でも原子力発電所でも同様に重要です。戦場における会話エージェントのニーズは、Google、Apple、Amazonなどが多大な努力を注いできたスマートフォンや家庭用スピーカーのニーズとは大きく異なるため、さらなる研究が必要です。

ロボットは互いの周囲で安全に飛行し、必要に応じて連携できなければなりません。5~10機のドローンの群れを互いに衝突させたり、地形に衝突させたりしないように調整することは、困難で常に進化し続ける問題です。EPFLのこの研究は、比較的シンプルな一連のルールと観察によって、飛行中のドローンが障害物や他のドローンを回避するだけでなく、それらのドローンの動きを予測することで、それらと連携して回避する方法も適切に理解できることを示しています。

例えば、ドローンAは、前方に迫る障害物を左に迂回するか右に迂回するかの選択を迫られるとします。ドローンAは、左側にドローンBが接近するのを回避できる十分な余裕があることを認識しています。しかし、ドローンBが自身の障害物を右に迂回するしか選択肢がない場合はどうなるでしょうか?ドローンAがそのことを認識していない場合、ドローンBが間に合わず、ドローンBと重なる経路を辿り、遅延や衝突につながる可能性があります。しかし、ドローンBがすぐに右に進路を変えなければならないことを認識していれば、その情報はドローンA自身の意思決定に反映され、たとえわずかに効率の悪い経路であっても、グループ全体でより速く前進できると判断し、反対方向に進むことができます。

ジョージア工科大学の研究では、異なるアプローチが見られます。ダナ・ランドール教授によると「限りなく愚かな」ロボットを配備し、複雑なタスクやチームワークを必要とするタスクを遂行させる方法を研究しました。彼らの実験は、前述のシミュレーター作業と現実世界の観察を組み合わせたもので、ロボットは体内に内蔵された磁石を使って、単体では扱えない重い物体を自然に協調的に移動できる集団を形成することを発見しました。高度な知能は必要ありません。これは、AI以外の意味での監督なしに、安価で最小限のロボットエージェントでタスクを遂行するのに役立つ可能性があります。

おそらく、最大の共同作業は、都市を走り回る自律走行車の巨大で絶えず変化するエコシステムの構築でしょう。その作業の大きな部分を占めるのは、データのより(しかし完全には)静的な側面、つまり都市そのものの実用的なモデルを作成することです。Googleストリートビューカーやその他の観測車両は長年目にしてきましたが、EPFLはScanVanの全方向撮影装置を用いて、より完成度の高いものを構築しています。

ScanVan の興味深いミラーベースのキャプチャ技術。
画像クレジット: EPFL

「目標は、周囲の球体全体を捉えることができるデバイスを活用し、シーンのあらゆる側面を1枚の画像で捉えることです」と研究者のニルス・ハメル氏は述べています。3D画像とRGB画像を効率的に撮影・統合すること自体が価値のある取り組みですが、チームは真の進歩は、これを何度も繰り返し実行し、結果として得られるモデルに時間の要素を加えることができる点にあると示唆しています。都市のどの部分で、照明、人口、植生、交通量などにどのような変化が見られ、いつ変化するのか?

チームはまた、そのようなデータが悪用され、本質的には普遍的な監視ツールとして機能する可能性があるという事実を考慮する必要があったため、個人や車両の識別情報を隠蔽するためにゼロから構築した。