
生成AIはロボット分野で既に大きな可能性を示しています。その応用分野には、自然言語によるインタラクション、ロボット学習、ノーコードプログラミング、さらにはデザインまで多岐にわたります。GoogleのDeepMind Roboticsチームは今週、この2つの分野における新たな可能性を秘めた分野、ナビゲーションを紹介します。
「Mobility VLA:ロングコンテキストVLMとトポロジカルグラフを用いたマルチモーダル指示ナビゲーション」と題された論文で、チームはGoogle Gemini 1.5 Proを実装し、ロボットにコマンドへの応答とオフィス内移動を学習させた方法を実証しています。当然のことながら、DeepMindは、昨年Googleが大規模なレイオフを行いプロジェクトを終了して以来、残っていたEvery Day Robotsの一部を使用しました。
このプロジェクトに添付された一連のビデオでは、DeepMindの従業員がスマートアシスタント風の「OK、ロボット」でビデオを開始し、その後、9,000平方フィートのオフィススペースでさまざまなタスクを実行するようシステムに指示します。

ある動画では、Google社員がロボットに絵を描くために連れて行ってほしいと頼んでいます。「OK」と、粋な黄色の蝶ネクタイをつけたロボットは答えます。「ちょっと待ってください。ジェミニで考えながら…」。そして、ロボットは人間を壁一面のホワイトボードへと導きます。2つ目の動画では、別の人物がロボットにホワイトボードの指示に従うように指示しています。
簡単な地図がロボットに「ブルーエリア」への行き方を示します。ロボットはまたも少し考え、ロボットのテストエリアへと続く長い道のりを進みます。「ホワイトボードの指示にうまく従えました」と、ほとんどの人間が夢見るだけの自信に満ちたロボットは宣言します。
これらのビデオに先立ち、ロボットはチームが「マルチモーダル指示ナビゲーション・デモンストレーションツアー(MINT)」と呼ぶ技術を用いて、空間に慣れ親しんでいました。これは、ロボットがオフィス内を歩き回りながら、音声で様々なランドマークを指示することを意味します。次に、チームは階層的な視覚・言語・行動(VLA)を用いて、「環境理解と常識に基づく推論能力を統合」します。これらのプロセスが統合されると、ロボットは手書きや描画による指示、そしてジェスチャーにも反応できるようになります。

グーグルによれば、ロボットは従業員と50回以上やり取りし、90%程度の成功率を達成したという。
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日
トピック
ブライアン・ヒーターは、2025年初頭までTechCrunchのハードウェア編集者を務めていました。Engadget、PCMag、Laptop、そして編集長を務めたTech Timesなど、数々の大手テクノロジー系メディアで活躍してきました。Spin、Wired、Playboy、Entertainment Weekly、The Onion、Boing Boing、Publishers Weekly、The Daily Beastなど、様々なメディアに寄稿しています。Boing Boingのインタビューポッドキャスト「RiYL」のホストを務め、NPRのレギュラーコメンテーターとしても活躍しています。クイーンズのアパートでは、ジュニパーという名のウサギと暮らしています。
バイオを見る