Alexa、Siri、あるいはGoogleのスマートアシスタントといったスマート音声アシスタントを使ったことがある人なら、テクノロジーが日々進化していることに気づいているでしょう。Googleはあなたの代わりに待機してくれますし、Siriは性別を問わない音声で話してくれますし、Alexaは亡くなったおばあちゃんの声で寝る前に物語を読んでくれます。ロボティクスもまた飛躍的に進化しており、先月のロボティクスイベントでも取り上げました。音声コマンドと自律型ロボティクスという2つの分野の間には、様々な理由から大きな隔たりがありました。先週、私たちはマウンテンビューにあるGoogleのロボティクスラボを訪れ、近い将来、この隔たりがどのように変化していくのかを目の当たりにしました。
人間が立ち入ることができない制御された空間でロボットに反復作業を教えるというのは容易ではありませんが、ほぼ解決済みの問題です。リビアンの最近の工場見学は、そのことを改めて思い知らされるものでした。しかし、産業用ロボットは製造業のあらゆる分野で活用されています。
人間が存在する空間で、音声コマンドに基づいて様々なタスクをこなせる汎用ロボットの開発は、はるかに困難です。「でもルンバはどうなの?」と思うかもしれませんが、誰もが愛用するロボット掃除機は、床と床にあるもの以外のものには触れないようにプログラムされていることが多く、一部のオーナーにとっては不満の種となっています。

「なぜ卓球なのかと不思議に思うかもしれません。今日のロボット工学における大きな課題の一つは、速度、精度、適応性の3つを両立させることです。速度は速くても全く適応性がなくても問題ありません。産業現場ではそれで問題ありません。しかし、速度と適応性、そして精度を兼ね備えることは、本当に大きな課題です。卓球はまさにこの問題を象徴する好例です。精度とスピードが求められます。実際にプレーしている人から学ぶことができます。これは練習によって身につくスキルなのです」と、Google Researchの著名な科学者であり、ロボット工学部門の責任者であるヴィンセント・ヴァンホーク氏は語った。「ルールを読めば一夜にしてチャンピオンになれるようなスキルではありません。本当に練習しなければなりません。」
スピードと精度も重要ですが、Google がロボット研究室で本当に解明しようとしているのは、人間の言語とロボット工学の交わる部分です。人間が使う自然言語をロボットが理解するレベルにおいて、Google は目覚ましい進歩を遂げています。「少し時間のあるときに、カウンターから飲み物を取ってきてもらえますか?」というのは、人間に尋ねるかなり単純な要求です。しかし、機械にとっては、この発言は多くの知識と理解を、一見たった 1 つの質問に凝縮しているようなものです。詳しく見ていきましょう。「少し時間のあるときに」は、比喩表現で何も意味しない場合もあれば、ロボットが行っていることを終わらせるように実際に要求している場合もあります。ロボットがあまりにも文字通りに解釈している場合、「飲み物を取ってきてもらえますか?」に対する「正しい」答えは、ロボットが「はい」と答えるだけかもしれません。飲み物を取ることができ、そのことを確認していることになります。しかし、ユーザーであるあなたは、ロボットに明示的にそれを依頼したわけではありません。さらに、もっと細かく言うなら、ロボットに飲み物を持ってくるように明確に指示したわけではありません。
これらは、Google が自然言語処理システムである Pathways Language Model (通称 PaLM) で取り組んでいる問題の一部です。つまり、文字通り人間の言ったことを実行するのではなく、人間が本当に望んでいることを正確に処理して理解することです。
次の課題は、ロボットが実際に何ができるかを認識することです。ロボットは、子供の手の届かない安全な場所に保管されている冷蔵庫の上部から洗剤のボトルを取ってくるように指示すれば、完璧に理解するかもしれません。問題は、ロボットがそこまで高いところに届かないことです。大きなブレークスルーは、Googleが「アフォーダンス」と呼んでいるもの、つまりロボットが実際にある程度の成功率で何ができるかということです。これには、簡単なタスク(「1メートル前進する」)から、少し高度なタスク(「キッチンでコーラの缶を探して」)、そしてロボットが自分の能力と周囲の世界についてかなりの理解を示すことを要求する複雑で複数ステップの動作(「ああ、コーラの缶を床にこぼしちゃった。拭いて、健康的な飲み物を持ってきてくれる?」)までが含まれます。
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日
Googleのアプローチは、言語モデル(「Say」)に含まれる知識を用いて、高レベルの指示に役立つアクションを決定し、スコア付けします。また、現実世界へのグラウンディングを可能にし、特定の環境で実行可能なアクションを決定するアフォーダンス機能(「Can」)も使用します。PaLM言語モデルを用いることで、GoogleはこれをPaLM-SayCanと呼んでいます。

上記のより高度なコマンドを解決するには、ロボットはそれをいくつかの個別のステップに分解する必要があります。その一例は次のとおりです。
- スピーカーのところに来てください。
- 床を見て、こぼれたものを探し、それがどこにあるかを覚えておいてください。
- 引き出し、キャビネット、キッチンカウンターの中を調べて、モップ、スポンジ、またはペーパータオルを探します。
- 掃除用具(引き出しの中にスポンジがあります)が見つかったら、それを手に取ります。
- 引き出しを閉じてください。
- こぼれたところへ移動します。
- こぼれた液体を拭き取り、スポンジが液体をすべて吸収できるかどうかを確認します。吸収できない場合は、シンクで絞ってから戻ってください。
- こぼれた液体を拭き取ったら、もう一度スポンジを絞ります。
- 蛇口をひねってスポンジをすすぎ、蛇口を閉めて最後にもう一度スポンジを絞ります。
- 引き出しを開け、スポンジをしまって、引き出しを閉じます。
- キッチンにある飲み物を特定し、コーラよりも「健康的な」飲み物を何とかして判断します。
- 冷蔵庫の中の水のボトルを見つけて、それを拾い、それを頼んだ人のところに持っていきます。その人は、尋ねてから動いているかもしれません。なぜなら、あなたはのろのろした小さなロボットで、シンクまで 14 回も行ったり来たりしなければならなかったからです。なぜなら、あなたは、ペーパータオルを使う代わりに、小さなキッチンスポンジを使って 11 オンスの液体を拭き取るのが良いアイデアだと考えたからです。
まあ、冗談で言っているだけですが、要点はご理解いただけると思います。比較的シンプルに聞こえる指示でさえ、実際には多くのステップ、論理、そして途中での判断が含まれることがあります。一番健康的な飲み物を見つけるのか、それともコカ・コーラよりも健康的なものを手に入れることが目的なのか?まず飲み物を手に入れ、それから汚れを拭き取って、残りのタスクを考えている間に人間が喉の渇きを癒せるようにする方が合理的ではないでしょうか?

ここで重要なのは、ロボットに何ができて何ができないか、そして様々な状況で何が理にかなっているかを教えることです。Googleロボティクスラボを見学した際、Everyday Robots社製のロボットと、より特殊に設計されたロボット合わせて30台以上のロボットが、人間と同じ空間で卓球をしたり、ラクロスのボールをキャッチしたり、積み木を積んだり、冷蔵庫のドアを開けたり、「礼儀正しく」行動したりすることを学んでいました。

ロボット工学が直面する興味深い課題は、言語モデルが本質的に物理世界に根ざしていないことです。膨大なテキストライブラリで学習しますが、テキストライブラリは環境と相互作用せず、問題を引き起こすことをあまり心配する必要もありません。Googleに最寄りのコーヒーショップを尋ねたのに、マップが誤って45日間のハイキングと3日間の湖での水泳を地図上に表示してしまうのは、ちょっと面白いことです。現実世界では、些細なミスが現実的な結果をもたらすのです。
例えば、「飲み物をこぼしてしまいました。手伝ってもらえますか?」と尋ねられたとき、言語モデルGPT-3は「掃除機を使ってみてはいかがでしょうか?」と応答します。これは理にかなっています。汚れによっては掃除機を使うのがよい選択肢であり、言語モデルが掃除機を掃除と関連付けるのも当然のことです。しかし、もしロボットが実際にそうした場合、おそらく失敗するでしょう。掃除機は飲み物をこぼすのにはあまり向いていませんし、水と電子機器は相性が悪いので、せいぜい掃除機が壊れるか、最悪の場合、家電製品が火事になるかもしれません。
GoogleのPaLM-SayCan対応ロボットはキッチンに配置され、キッチンでの様々な場面で役立つよう訓練されます。ロボットは指示を受けると、次のことを判断しようとします。「これからやろうとしていることが成功する確率はどれくらいか?」そして「このことはどれくらい役に立つか?」。この2つの考えの間のどこかで、ロボットは日々著しく賢くなっています。

アフォーダンス、つまり何かを行う能力は二者択一ではありません。3つのゴルフボールをバランスよく重ねるのは非常に難しいですが、不可能ではありません。引き出しの仕組みを教わっていないロボットにとって、引き出しを開けることはほぼ不可能です。しかし、一度訓練を受け、引き出しを最もうまく開ける方法を試行錯誤できるようになると、ロボットはタスクに対する自信をどんどん高めることができます。Googleによると、訓練を受けていないロボットは、引き出しからポテトチップスの袋を取ることさえできないかもしれません。しかし、指示を与え、数日間練習させれば、成功率は大幅に高まります。
Googleの自動運転車プロジェクトが偶然にもロボット配達のライバルを生み出した経緯
もちろん、このトレーニングデータはすべて、ロボットが試行錯誤する中でスコアリングされます。ロボットは時折、驚くべき方法でタスクを「解決」するかもしれませんが、実際にはその方がロボットにとって「簡単」な場合もあります。
言語モデルをアフォーダンスから切り離すことで、ロボットは様々な言語の命令を「理解」できるようになります。チームはキッチンでもこれを実証しました。ロボティクス責任者のヴィンセント・ヴァンホック氏がロボットにフランス語でコーラの缶を頼んだ時です。「言語スキルは無料で手に入れました」とチームは述べ、ロボットの訓練に使用されているニューラルネットワークが、アクセシビリティとユニバーサルアクセスの新たな扉(文字通りにも比喩的にも)を開くほど柔軟であることを強調しました。

現時点では、これらのロボットやテクノロジーはいずれも市販製品として販売される予定はなく、また、必ずしも市販製品として販売される予定もありません。
「今のところは完全に研究段階です。今の私たちのスキルレベルからお分かりいただけるように、商用環境に展開できる状態ではありません。私たちは研究機関なので、うまくいかないことに取り組むのが大好きです」とヴァンホーケ氏は冗談めかして言います。「ある意味、それが研究の定義であり、私たちはこれからも前進していきます。スケールする必要のないことに取り組みたいのは、それがより多くのデータとより高度なコンピューター能力によって物事がどのようにスケールするかを知る手段だからです。物事が将来どのように発展していくかのトレンドを見ることができるのです。」
Google のロボット工学研究所が、その実験が長期的にどのような商業的影響を与えるか(もしあるとすれば)を把握するには、しばらく時間がかかるだろう。しかし、先週マウンテンビューで披露された比較的シンプルなデモでさえ、Google のチームがロボットのトレーニング方法に関するより深いスキル、知識、膨大なデータセットを構築するにつれて、自然言語処理とロボット工学の両方が勝利を収めることは明らかだ。