パーセプトロン:月を照らし、文法を即興で生成し、ロボットに人間のように歩くことを教えるAI

パーセプトロン:月を照らし、文法を即興で生成し、ロボットに人間のように歩くことを教えるAI

機械学習とAIは、今やほぼあらゆる業界や企業にとって重要な技術となっていますが、その研究は膨大で、全てを読むのは容易ではありません。このコラム「パーセプトロン」では、特に人工知能(AIに限らず)分野において、近年の最も関連性の高い発見や論文をいくつか集め、それらがなぜ重要なのかを説明することを目指しています。

過去数週間にわたり、科学者たちは、月の薄暗い(場合によっては真っ暗な)小惑星クレーターに関する興味深い詳細を明らかにするアルゴリズムを開発しました。また、MITの研究者たちは、AIモデルに教科書を使って学習させ、特定の言語のルールを自律的に理解できるかどうかを検証しました。さらに、DeepMindとMicrosoftのチームは、モーションキャプチャデータを用いてロボットに歩行などの特定のタスクを学習させることができるかどうかを研究しました。

アルテミス1号の打ち上げが迫り(そして予想通り遅れている)、月科学が再び注目を集めています。しかし皮肉なことに、月の最も暗い領域こそが、潜在的に最も興味深い領域なのです。そこには、無数の用途に利用できる水氷が存在する可能性があるからです。暗い部分は簡単に見つけられますが、そこには一体何が隠されているのでしょうか?画像専門家からなる国際的なチームが、この問題に機械学習を適用し、ある程度の成果を上げています。

クレーターは極暗黒の闇に包まれているものの、ルナー・リコネッサンス・オービターは時折、内部から光子を捉えています。研究チームは、地球物理学研究論文集に掲載された「物理学に基づくディープラーニング駆動型後処理ツール」を用いて、これらの露出不足(ただし完全に黒ではない)の画像を何年にもわたって撮影しました。月惑星研究所のデイビッド・クリング氏によると、その結果、「永久影の領域への可視経路を設計できるようになり、アルテミス計画の宇宙飛行士やロボット探査機のリスクを大幅に軽減できる」とのことです。

光あれ!クレーター内部は迷光子から再構成された。画像提供: VT Bickel、B. Moseley、E. Hauber、M. Shirley、J.-P. Williams、DA Kring

彼らは懐中電灯を持っているだろうと想像するが、どこへ行くのか事前に大まかな見当をつけておくのは良いことだし、もちろんそれはロボット探査機や着陸機がどこに重点を置くかにも影響するだろう。

いかに有用であろうとも、疎データを画像に変換することに神秘的な意味はありません。しかし言語学の世界では、AIは言語モデルが本当に知っていること、そして実際に知っているのかどうかという点において、興味深い進展を見せています。言語の文法学習の場合、MITの実験では、複数の教科書で学習させたモデルが、特定の言語の仕組みに関する独自のモデルを構築できることが示されました。例えばポーランド語の文法であれば、その言語に関する教科書の問題に正確に解答できるほどです。

「言語学者は、人間の言語の規則を真に理解し、システムを動かす原理に共感するには、人間でなければならないと考えてきました。私たちは、人間(言語学者)がそのような作業に持ち込むような知識と推論を、人間が模倣できるかどうかを試したかったのです」と、MITのアダム・オルブライト氏はニュースリリースで述べています。この分野ではまだ研究の初期段階ですが、AIモデルが明示的な指示なしに、微妙な、あるいは隠れた規則を「理解」できることを示した点で、期待が持てます。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

しかし、この実験は、AI研究における重要な未解決問題、すなわち、言語モデルが有害、差別的、あるいは誤解を招くような言語を出力するのをいかに防ぐかという問題に直接取り組むものではありませんでした。DeepMindの新たな研究は、言語モデルを人間の価値観と整合させるという問題に哲学的なアプローチを取り、この問題に取り組んでいます。

研究室の研究者たちは、より優れた言語モデルへの「万能」な道は存在しないと主張しています。なぜなら、モデルは使用される文脈に応じて異なる特性を体現する必要があるからです。例えば、科学的研究を支援するために設計されたモデルは、理想的には真実の発言のみを行うべきですが、公開討論のモデレーターの役割を果たすエージェントは、寛容、礼儀正しさ、敬意といった価値観を実践するでしょう。

では、これらの価値観はどのようにして言語モデルに浸透させることができるのでしょうか?DeepMindの共著者たちは、特定の方法を提案しているわけではありません。むしろ、モデルは文脈構築 と 解明と呼ばれるプロセスを通じて、時間の経過とともにより「堅牢」で「敬意のある」会話を育むことができると示唆しています。共著者たちは次のように説明しています。「たとえ人が特定の会話慣行を支配する価値観を認識していなくても、エージェントは会話の中でそれらの価値観を事前に示すことで、人間がこれらの価値観を理解するのを助け、人間の話し手にとってコミュニケーションをより深く、より実りあるものにすることができます。」

ラムダ
GoogleのLaMDA言語モデルが質問に答えている様子。画像クレジット: Google

言語モデルを整合させる最も有望な手法を見つけるには、膨大な時間とリソース(資金面も含め)が必要です。しかし、言語以外の分野、特に科学分野では、シカゴ大学、アルゴンヌ国立研究所、MITの科学者チームに米国科学財団(NSF)から350万ドルの助成金が交付されたことで、状況はそれほど長くは続かなくなるかもしれません。

NSFの助成金を受け、受給者は「モデルガーデン」と呼ばれるもの、つまり物理学、数学、化学などの分野の問題を解決するために設計されたAIモデルのリポジトリを構築する予定です。このリポジトリは、モデルをデータやコンピューティングリソース、そしてその精度を検証するための自動テストやスクリーニングと連携させ、科学研究者が自身の研究でツールをテストし、展開することをより容易にします。

「ユーザーは[モデル]ガーデンにアクセスすれば、すべての情報を一目で確認できます」と、このプロジェクトに携わるGlobus Labsのデータサイエンス研究者、ベン・ブレイジック氏はプレスリリースで述べています。「ユーザーはモデルを引用したり、モデルについて学んだり、著者に連絡を取ったり、さらには主導的なコンピューティング施設や自分のコンピュータ上のウェブ環境でモデルを呼び出すこともできます。」

一方、ロボット工学分野では、研究者たちがソフトウェアではなくハードウェア、正確にはニューロモルフィック・ハードウェアを用いてAIモデル用のプラットフォームを構築しています。Intelは、最新世代の実験的Loihiチップにより、物体認識モデルがCPU上で動作する場合に比べて最大175倍の消費電力で、これまで見たことのない物体を「学習」して識別できるようになると主張しています。

インテルニューロモルフィック
インテルの実験的なニューロモルフィックチップを搭載したヒューマノイドロボット。画像提供:インテル

ニューロモルフィックシステムは、神経系の生物学的構造を模倣しようとします。従来の機械学習システムは、速度か電力効率のどちらか一方に偏っていますが、ニューロモルフィックシステムは、ノードを用いて情報を処理し、ノード間の接続を用いてアナログ回路を用いて電気信号を伝送することで、速度と効率の両方を実現します。このシステムはノード間に流れる電力量を調整することで、各ノードが処理を実行できるようにしますが、必要な場合にのみ実行されます。

インテルをはじめとする企業は、ニューロモルフィック・コンピューティングが物流分野にも応用できると考えています。例えば、製造工程を支援するロボットの駆動力向上などです。現時点では理論上の話ですが、ニューロモルフィック・コンピューティングには欠点もあります。しかし、いつかこのビジョンが実現する日が来るかもしれません。

DeepMindの具現化されたAI
画像クレジット: DeepMind

より現実に近いのは、DeepMindの最近の「具現化知能」研究です。これは、人間や動物の動きを用いてロボットにボールのドリブル、箱運び、さらにはサッカーのプレーを教えるというものです。同研究所の研究者たちは、人間や動物が装着するモーショントラッカーからデータを記録する装置を考案し、AIシステムが円運動のような新しい動作の完了方法を推測できるようにしました。研究者たちは、このアプローチは現実世界のロボットにもうまく応用でき、例えば四足歩行ロボットが犬のように歩きながら同時にボールをドリブルするといったことも可能になったと主張しています。

偶然にも、マイクロソフトは今年の夏、人間のように歩行できるロボットの研究を促進することを目的としたモーションキャプチャデータのライブラリをリリースしました。MoCapActと呼ばれるこのライブラリには、他のデータと組み合わせることで、少なくともシミュレーション上では、機敏な二足歩行ロボットを作成できるモーションキャプチャクリップが含まれています。

「(このデータセットの作成には)多数のGPU搭載サーバーを介し、50年に相当する時間を要しました…これは、MoCapActが他の研究者にとってどれほど計算上のハードルを取り除いてくれるかを示すものです」と、この研究の共著者たちはブログ記事に記しています。「コミュニティの皆様が私たちのデータセットを基に、ヒューマノイドロボットの制御に関する素晴らしい研究に取り組んでくれることを願っています。」

科学論文の査読は人間の貴重な仕事であり、AIがその役割を担う可能性は低いでしょう。しかし、査読が実際に役立つものであることを確認する上で、AIが役立つ可能性はあります。スイスの研究グループは、モデルに基づく査読評価に取り組んでおり、その初期結果は良い意味で賛否両論です。明確な良し悪しの手法や傾向は見られず、出版インパクト評価は査読が徹底的か有益かを予測できないようです。しかし、それはそれで構いません。査読の質は様々ですが、例えば主要ジャーナル以外では質の高い査読が体系的に不足している状況は避けたいものです。彼らの研究は現在も進行中です。

最後に、この分野での創造性に関心のある方のために、Karen X. Cheng による個人プロジェクトを紹介します。これは、少しの創意工夫と努力を AI と組み合わせることで、真に独創的なものを生み出すことができることを示しています。

AIファッションチュートリアル –
昨日の動画のより詳細な解説です。(ちなみに、音声をオンにするとナレーションの文脈がより詳しく分かります)#dalle2 #dalle #ArtificialIntelligence #digitalfashion #virtualfashion pic.twitter.com/B9PlWXQa6O

— カレン・X・チェン(@karenxcheng)2022年8月31日