ロボットはYouTubeを見て家事を学ぶ

ロボットはYouTubeを見て家事を学ぶ
タスクを実行するロボットの配列
画像クレジット: CMU

学習はロボット工学において何十年もの間、聖杯とされてきました。これらのシステムが予測不可能な環境でうまく機能するためには、プログラミングに反応するだけでなく、適応し学習する必要があります。専門家と話をしたり、文献を読んだりするほど、ロボットの学習には多くのソリューションの組み合わせが必要であることが明らかになってきました。

動画は、この分野における最近の多くの研究の中心となっている興味深いソリューションです。昨年の今頃、私たちはCMUが開発したWHIRL(in-the-Wild Human Imitating Robot Learning)というアルゴリズムを取り上げました。これは、人間がタスクを実行する様子を録画することでロボットシステムを学習させるように設計されています。

今週、CMUロボティクス研究所のディーパック・パタック助教授は、WHIRLの進化版であるVRB(Vision-Robotics Bridge)を展示します。前身と同様に、このシステムは人間の映像を用いてタスクをデモンストレーションしますが、今回のアップデートでは、ロボットが動作する環境と同一の環境で人間がタスクを実行する必要がなくなりました。

「ロボットをキャンパス内に連れて行き、様々なタスクを実行させることができました」と、博士課程の学生であるシカール・バール氏は声明で述べています。「ロボットはこのモデルを使って、周囲の世界を好奇心を持って探索することができます。ただ腕を振り回すだけでなく、ロボットはより直接的なインタラクションを行うことができます。」

ロボットは接触点や軌道など、いくつかの重要な情報を監視しています。研究チームは引き出しを開ける例を挙げています。接触点は取っ手、軌道は開く方向です。「人間が引き出しを開ける動画を複数視聴することで、ロボットはどんな引き出しでも開け方を判断できるようになりました」とCMUは述べています。

もちろん、すべての引き出しが同じように動作するわけではありません。人間は引き出しを開けるのがかなり上手になりましたが、だからといって、たまに奇妙な構造の引き出しがあっても問題が起きないわけではありません。結果を改善するための重要なポイントの一つは、トレーニング用のデータセットを大規模にすることです。CMUは、Epic KitchensやEgo4Dといったデータベースの動画を活用しています。Ego4Dには、「世界中の日常の行動を捉えた約4,000時間分の自己中心的な動画」が収録されています。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

バール氏は、潜在的な訓練データが大量にアーカイブ化されており、活用を待っていると指摘する。「私たちはこれらのデータセットを、これまでとは異なる新しい方法で活用しています」とバール氏は指摘する。「この研究により、ロボットはインターネットやYouTube上に膨大な量の動画から学習できるようになるかもしれません。」

トピック

ブライアン・ヒーターは、2025年初頭までTechCrunchのハードウェア編集者を務めていました。Engadget、PCMag、Laptop、そして編集長を務めたTech Timesなど、数々の大手テクノロジー系メディアで活躍してきました。Spin、Wired、Playboy、Entertainment Weekly、The Onion、Boing Boing、Publishers Weekly、The Daily Beastなど、様々なメディアに寄稿しています。Boing Boingのインタビューポッドキャスト「RiYL」のホストを務め、NPRのレギュラー寄稿者でもあります。クイーンズのアパートでは、ジュニパーという名のウサギと暮らしています。

バイオを見る