ディープラーニング
Google の DeepMind のニューラル ネットワークは優れた空間推論能力を備えています。
Google の英国に拠点を置く子会社 DeepMind の新しい研究は、ディープ ニューラル ネットワークがシーンを理解し、それをコンパクトな形式で表現し、さらにネットワークがこれまで見たことのない視点から同じシーンがどのように見えるかを「想像」する優れた能力を持っていることを実証しました。
人間はこの点に長けています。テーブルの前面の3本の脚だけが見える絵を見せられた場合、ほとんどの人は直感的に、テーブルの反対側に4本目の脚があり、テーブルの後ろの壁は見えている部分と同じ色だろうと推測します。練習すれば、遠近法や影、その他の視覚効果を考慮しながら、別の角度からシーンをスケッチできるようになります。
Ali Eslami氏とDanilo Rezende氏が率いるDeepMindチームは、同様の機能を持つディープニューラルネットワークベースのソフトウェアを開発しました。少なくとも、単純化された幾何学的シーンに関しては可能です。仮想シーンの「スナップショット」をいくつか与えると、生成クエリネットワーク(GQN)と呼ばれるこのソフトウェアは、ニューラルネットワークを用いてそのシーンのコンパクトな数学的表現を構築します。そして、その表現を用いて、ネットワークがこれまで見たことのない新しい視点から部屋の画像をレンダリングします。
研究者たちは、GQNにレンダリングする環境の種類に関する事前知識を一切ハードコードしませんでした。人間は現実世界の物体を観察する長年の経験に助けられています。DeepMindのネットワークは、類似したシーンの画像を多数調べるだけで、同様の直感を独自に構築します。
「最も驚いた結果の一つは、遠近法や遮蔽、照明や影といったものを表現できるのを見た時でした」とエスラミ氏は水曜日の電話インタビューで語った。「レンダラーやグラフィックエンジンの書き方は知っています」と彼は付け加えた。しかし、DeepMindのソフトウェアの注目すべき点は、プログラマーがこれらの物理法則をソフトウェアにハードコードしようとしなかったことだ 。エスラミ氏によると、ソフトウェアは白紙の状態からスタートし、「画像を見ることでこれらの法則を効果的に発見する」ことができたという。
これは、ディープラーニングの驚異的な汎用性を示す最新の事例です。ディープラーニングを用いて画像を分類したり、囲碁で勝ったり、Atari 2600のゲームをプレイしたりする方法はすでに知られています。そして今、ディープラーニングが3次元空間について推論を行う驚異的な能力を持つことが分かりました。
DeepMindの生成クエリネットワークの仕組み
以下は、GQN がどのように構成されているかについての直感を助ける、DeepMind による簡単な図です。
GQNは、実際には2つの異なるディープニューラルネットワークが接続されたものです。左側の表現ネットワークは、シーンを表す画像群(および各画像のカメラ位置に関するデータ)を取り込み、これらの画像をシーン全体のコンパクトな数学的表現(基本的には数値のベクトル)に凝縮します。
次に、生成ネットワークの役割は、このプロセスを逆にすることです。つまり、シーンを表すベクトルから始めて、カメラの位置を入力として受け入れ、その角度から見たシーンがどのように見えるかを表す画像を生成します。
当然のことながら、生成ネットワークに入力画像の1つに対応するカメラ位置が与えられれば、元の入力画像を再現できるはずです。しかし、このネットワークには、対応する画像をこれまで見たことのない他のカメラ位置も与えられます。GQNは、これらの位置から、同じ場所から撮影された「実際の」画像と非常によく一致する画像を生成することができます。
DeepMindの論文には、「2つのネットワークはエンドツーエンドで共同でトレーニングされる」と記されている。
研究チームは、標準的な機械学習手法である確率的勾配降下法を用いて、2つのネットワークを反復的に改善しました。ソフトウェアは、いくつかのトレーニング画像をネットワークに入力し、出力画像を生成し、この画像が期待される結果からどれだけ乖離しているかを観察します。従来のニューラルネットワークは、出力の正誤を判断するために外部から与えられたラベルを使用しますが、GQNのトレーニングアルゴリズムでは、シーン画像を表現ネットワークへの入力としてだけでなく、生成ネットワークの出力が正しいかどうかを判断する手段としても使用します。
出力が目的の画像と一致しない場合、ソフトウェアは誤差を逆伝播し、数千個のニューロンの数値重みを更新してネットワークの性能を向上させます。ソフトウェアはこのプロセスを何度も繰り返し、そのたびにネットワークは入力画像と出力画像を一致させる能力を少しずつ向上させていきます。
「2つの漏斗が互いにつながっていて、ボトルネックが真ん中でつながっているようなものだと想像してみてください」とエスラミ氏はArsに語った。「ボトルネックが狭いため、2つのネットワークは連携して動作し、シーンの内容をコンパクトに伝達することを学習します。」
ネットワークは、見えない領域について推測することができる
学習プロセス中、ニューラルネットワークには、類似した特徴を持つ複数の異なる「部屋」から撮影された複数の画像が提供されます。ある実験では、球、立方体、円錐といった複数の幾何学的形状を含む、様式化された正方形の「部屋」を多数生成しました。各部屋には、光源、壁の色、質感がランダムに選択されています。ネットワークは複数の「部屋」からのデータで学習するため、部屋の内容をうまく一般化できる方法で表現する方法を見つける必要があります。
GQNの学習が完了すると、これまで見たことのない新しい「部屋」の画像を1枚以上提供できるようになります。類似した特徴を持つ他の多くの部屋で学習することで、ネットワークは部屋の通常の外観に関する優れた直感力を獲得し、直接目に見えない部屋の部分についても的確な推測を行うことができます。
クレジット: DeepMind
クレジット: DeepMind
例えば、GQNは、壁の繰り返しパターンが、他の物体によって隠されている部分でも続く可能性が高いことを予測できます。シーン内の物体が壁、床、その他の物体にどのような影を落とすかを予測できます。しかも、研究者が光の物理法則や分析対象のシーンの特性に関する明確なルールをハードコーディングすることなく、これらすべてを実現します。
「ニューラルネットワークは、私たちが手作業で学習する方法がわからないことを学習できます」とエスラミ氏は語った。「テーブルは通常椅子の隣に置かれているという事実は、私たちが直感的に知っているものの、定量化したりコード化したりするのは難しいものです。ニューラルネットワークは、物体が影を落とすことを学ぶのと同じように、それを学習できるのです。」
言い換えれば、GQNが大量の住宅内装画像で学習され、その後、これまで見たことのない家の画像が与えられたとします。もし利用可能な画像にダイニングテーブルの半分しか写っていなければ、ネットワークはテーブルのもう半分がどのように見えるか、そしておそらくテーブルの隣に椅子があるだろうと推測できるでしょう。もし2階に寝室ほどの広さの部屋があるのに、その内装が画像に写っていない場合、ネットワークはベッドとドレッサーがあると推測するかもしれません。
これは、ネットワークがテーブルや椅子、あるいはベッドが何であるかを概念的に理解しているからではありません。統計的に言えば、テーブル型の物体の隣には椅子型の物体が置かれる傾向があり、寝室型の部屋にはベッド型の物体が置かれる傾向があることを、ネットワークが観察しただけでしょう。
生成クエリネットワークは非常に汎用性が高い
DeepMindチームが構築したネットワークは、非常に限られた量のデータから驚くほど豊富な推論を導き出すことができます。別の実験では、研究者たちはネットワークに、3次元のテトリスのピースのように見えるランダムに生成された一連の形状を見せることで、ネットワークを訓練しました。訓練プロセス中、ネットワークにはランダムに生成された異なるピースのシーケンスと、各ピースの複数の画像が提示されました。
ネットワークの学習が完了すると、研究者たちはネットワークに、これまで見たことのない新しいテトリスの形状の画像を1枚与えました。この1枚の画像から、ネットワークは様々な角度からテトリスのピースのリアルな3次元画像を生成することができました。
もちろん、これは常に可能というわけではありません。1枚のサンプル画像が、ピースの一部が隠れている角度から撮影されている場合、ネットワークは隠れている部分がどのような形をしているのかを知ることができません。この場合、ネットワークは、画像内の観測された部分と一致する多数の形状の中から1つをランダムに生成します。しかし、サンプル画像ですべての部分が見える場合、ネットワークはピースの形状を非常に正確に推測し、あらゆる角度からピースの画像をレンダリングします。
GQNは驚くほど複雑なシーンにも対応できます。別の実験では、研究者たちはミニチュア版DOOMのような3次元迷路を構築しました。これらの仮想環境には複数の部屋と通路があったため、一枚の画像では環境全体のほんの一部しか映し出すことができませんでした。しかし、新しい迷路のスナップショットを6枚ほど与えれば、GQNは迷路全体、あるいは少なくとも一枚の画像に映っている部分の正確なモデルを構築できます。
GQNアプローチは現実世界で応用できる可能性がある
これまで説明したすべての実験では、表現ネットワークと生成ネットワークを組み合わせて特定のシーンの画像を再現しています。しかし研究者たちは、表現ネットワークによって生成され、その後生成ネットワークによって使用される、ネットワークによるシーンのコンパクトな表現が、それ自体でも有用であることを発見しました。
機械学習における標準的な課題の一つは、ロボットアームを制御してボールを拾うといった単純なタスクを実行させることです。理想的には、ロボットの現在位置を示すビデオ映像のみを入力として、アルゴリズムがこれを実行できる必要があります。強化学習と呼ばれる手法により、ソフトウェアは人間のオペレーターからの明示的な指示なしに、このようなタスクを自律的に実行する方法を学ぶことができます。
これは新しい問題ではありません。機械学習研究者は以前にも他の手法を用いてこの問題を解決してきました。しかし、DeepMindの研究者たちは、GQNによるロボットアームの位置表現が学習プロセスに非常に有用な入力を提供することを発見しました。強化学習アルゴリズムは、生のビデオフィードを分析するのではなく、GQNによるロボットアームの位置のベクトル表現を用いて現在の状況を理解することができます。
「このベクトルは生の入力画像よりも次元がはるかに低いため、生のピクセルを使用する標準的な方法に比べて環境とのやり取りが約4分の1で、収束レベルの制御パフォーマンスが得られ、はるかに堅牢でデータ効率の高いポリシー学習が実現しました」と研究者らは書いている。
ここで強調しておきたいのは、研究者たちはGQNによるシーンのベクトル表現を強化学習アルゴリズムに渡す前に、いかなる注釈も付与しなかったということです。強化学習アルゴリズムは、シーンのGQNのベクトル表現の値がロボットアームの現在の位置とどのように対応しているかを最初から把握していません。それでも、GQNのベクトル表現を入力として用いた場合、試行錯誤によってこの情報を学習することは、生のビデオフィードのみに基づいて学習しようとする場合と比べて、はるかに容易であることが証明されました。
実用的?
エスラミ氏は、これはまだ予備研究であり、実用化には程遠いと強調しました。この研究は、ほぼ全てコンピューターでレンダリングされた仮想の「部屋」やオブジェクトでテストされています。現実世界で私たちが遭遇する、はるかに複雑な環境でのテストは行われておらず、これらの技術がどの程度一般化できるかは不明です。
確かに、GQNの成功の鍵は、複雑なシーンをコンパクトな数値表現に凝縮する能力にあります。しかし、それは暗黙のうちに、シーンが比較的少ない数値で表現できるほど単純であることを前提としています。しかし、表現しようとしている典型的なシーンに、数十、数百、あるいは数千ものオブジェクトが含まれていたらどうなるでしょうか?さらに、その中に木、猫、車といった複雑なオブジェクトが含まれていたらどうなるでしょうか?
ある時点で、シーンは複雑になりすぎて、DeepMindソフトウェアの基盤となっているようなコンパクトな数学的表現では効率的に表現できなくなる可能性があります。研究者たちは、同じ技術をスケールアップして、より多くの、そしてより多様なオブジェクトを含むより複雑なシーンを表現できるかどうかを検討する必要があります。
しかし、これらの技術を現実世界の物体に一般化できれば(そして誰かがその方法を見つけ出す可能性は高いと思われます)、その可能性は魅力的です。自動運転車は明白な応用例の一つと言えるでしょう。現在、自動運転ソフトウェアは、特定のシーンにおける物体が車、歩行者、自転車、樹木、建物などであることを理解するために、人間が開発したモデルや、道路シーンに対する人間による明示的な注釈に大きく依存しています。今日の自動運転ソフトウェアがこれらのラベルを必要とするのは、近くの物体(歩行者、自転車、ウィリアム・シャトナー)のうち、どれが突然道路に飛び出す可能性があり、どれがほぼ確実にその場に留まるか(茂み、ゴミ袋)を車両が予測するのに役立つためです。
GQNのようなネットワークは、自動運転車が運転状況についてより人間に近い直感を身につけるのに役立つ可能性があります。つまり、人間が各シーン内の物体に手間をかけてラベルを付けるのではなく、生のセンサーデータから直接学習できる直感です。このようなネットワークを既存の自動運転システムにどのように統合するかは、正確にはわかりません。私たちよりも賢い人々による、より多くの研究が必要です。しかし、このような強力な技術が自動運転車の世界をより深く理解するのに役立つとしたら、私たちは驚くでしょう。

ティモシーは、テクノロジー政策と交通の未来を取材するシニアレポーターです。ワシントンD.C.在住。
69件のコメント