パーセプトロン: 音で見て、歩くことを学び、地震の物理を予測するAI

パーセプトロン: 音で見て、歩くことを学び、地震の物理を予測するAI

機械学習とAIは、今やほぼあらゆる業界や企業にとって重要な技術となっていますが、その研究は膨大で、全てを読むのは容易ではありません。このコラム「パーセプトロン」では、特に人工知能(AIに限らず)分野において、近年の最も関連性の高い発見や論文をいくつか集め、それらがなぜ重要なのかを説明することを目指しています。

今月、Metaのエンジニアたちは、同社の研究室の奥深くから生まれた2つの最新イノベーションについて詳細を発表しました。それは、音声ファイルを圧縮するAIシステムと、タンパク質フォールディングAIの性能を60倍高速化するアルゴリズムです。また、MITの科学者たちは、空間音響情報を用いて機械が周囲の環境をより正確に想像できるようにし、部屋のどの位置から音が聞こえたかをシミュレートしていることを明らかにしました。

Metaの圧縮技術は、未開拓の領域に達しているわけではない。昨年、Googleは低ビットレートの音声を圧縮するように訓練されたニューラルオーディオコーデック「Lyra」を発表した。しかしMetaは、同社のシステムがCD品質のステレオオーディオに対応し、音声通話などの商用アプリケーションにも役立つとしている。

メタオーディオ圧縮
MetaのAIオーディオ圧縮モデルのアーキテクチャ図。画像クレジット: Meta

Metaの圧縮システム「Encodec」はAIを活用し、単一のCPUコアで約1.5kbpsから12kbpsの速度でオーディオをリアルタイムに圧縮・解凍できます。MP3と比較すると、Encodecは64kbpsで約10倍の圧縮率を実現し、音質の劣化は目立ちません。

Encodec の研究者らは、人間の評価者は Lyra で処理したオーディオよりも Encodec で処理したオーディオの品質を好んだと述べており、これは帯域幅が制限されているか貴重な状況で、Encodec が最終的にはより高品質のオーディオを提供するために使用できることを示唆しています。

Metaのタンパク質折り畳み研究は、すぐに商業化できる可能性は低い。しかし、生物学分野における重要な科学研究の基盤を築く可能性はある。

メタタンパク質フォールディング
Metaのシステムによって予測されたタンパク質構造。画像クレジット: Meta

Meta社によると、同社のAIシステム「ESMFold」は、細菌、ウイルス、その他の微生物由来の、まだ特徴づけられていない約6億個のタンパク質の構造を予測したという。これは、アルファベット傘下のDeepMindが今年初めに予測した2億2000万個の構造の3倍以上であり、DNAデータベースに登録されている既知の生物由来のほぼすべてのタンパク質をカバーしていた。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

MetaのシステムはDeepMindほど正確ではありません。生成した約6億個のタンパク質のうち、「高品質」だったのはわずか3分の1でした。しかし、構造予測はMetaの60倍高速であるため、はるかに大規模なタンパク質データベースに構造予測を拡張できます。

Metaに過大な注目を集めないよう、同社のAI部門は今月、数学的推論を行うように設計されたシステムの詳細も発表した。同社の研究者によると、この「ニューラル問題解決システム」は、成功した数学的証明のデータセットから学習し、新しい、異なる種類の問題に一般化できるようになったという。

Metaがこのようなシステムを構築したのは初めてではない。OpenAIは2月に独自のシステム「Lean」を開発し、発表した。また、DeepMindは対称性や結び目に関する研究において、難解な数学問題を解くシステムの実験を行っている。Metaは、同社のニューラル問題解決システムは、従来のAIシステムよりも5倍多くの国際数学オリンピックの課題を解くことができ、広く使用されている数学ベンチマークにおいて他のシステムを凌駕したと主張している。

Meta 氏は、数学を解く AI がソフトウェア検証、暗号化、さらには航空宇宙の分野にも役立つ可能性があると指摘しています。

MITの研究に目を向けると、同大学の研究者たちは、室内の音が空間にどのように伝播するかを捉える機械学習モデルを開発しました。音響モデル化により、システムは録音された音から部屋の形状を学習し、それを用いて部屋の視覚的なレンダリングを構築することができます。

研究者らは、この技術は仮想現実(VR)や拡張現実(AR)ソフトウェア、あるいは複雑な環境を移動する必要があるロボットに応用できる可能性があると述べています。将来的には、建物全体、さらには町や都市全体といった、より大規模で新しいシーンにも汎用化できるようシステムを改良する予定です。

バークレー大学ロボット工学部では、2つの別々のチームが四足歩行ロボットの歩行やその他の技の学習速度を加速させています。一方のチームは、強化学習における数々の進歩の中から最善の成果を組み合わせ、ロボットがわずか20分で白紙の状態から不確実な地形を安定して歩行できるようになることを目指しました。

「驚くべきことに、タスクの設定とアルゴリズムの実装に関していくつかの慎重な設計上の決定を行うことで、四足ロボットがディープラーニングを用いて20分以内に様々な環境や路面の種類で歩行をゼロから学習することが可能であることが分かりました。重要なのは、これには新たなアルゴリズム要素やその他の予想外の革新は必要ないということです」と研究者らは記しています。

代わりに、彼らは最先端のアプローチをいくつか選択・組み合わせることで、驚くべき結果を得ています。論文はこちらでご覧いただけます。

2022年、カリフォルニア州バークレーにあるEECS教授ピーター・アビール氏の研究室で行われたロボット犬のデモ。(写真提供:フィリップ・ウー/バークレー工学部)

TechCrunchの友人であるPieter Abbeel氏の研究室によるもう一つの移動学習プロジェクトは、「想像力の訓練」と評されました。彼らはロボットに、自分の行動がどのように結果をもたらすかを予測する能力を持たせました。最初は全く無力でしたが、すぐに世界とその仕組みについてより多くの知識を獲得していきます。これにより予測プロセスが向上し、さらに知識が向上し、これがフィードバックとして繰り返され、1時間も経たないうちに歩行できるようになります。押されたり、いわゆる「動揺」させられたりしても、同じように素早く回復します。彼らの研究成果は、こちらでご覧いただけます。

今月初め、ロスアラモス国立研究所から、より即効性のある応用が期待される研究が発表されました。同研究所の研究者らは、地震発生時に発生する摩擦を予測する機械学習技術を開発し、地震予知の手段を確立しました。研究チームは言語モデルを用いることで、実験室の地震発生装置で断層から発せられる地震信号の統計的特徴を分析し、次の地震の発生時期を予測することに成功したと述べています。

「このモデルは物理学に制約されるのではなく、システムの物理的な挙動、つまり実際の挙動を予測します」と、このプロジェクトの研究リーダーの一人であるクリス・ジョンソン氏は述べた。「現在、私たちは過去のデータから未来を予測しており、システムの瞬間的な状態を記述する以上のものとなっています。」

ドリームタイム
画像クレジット: Dreamstime

研究者らによると、この技術を現実世界に適用するのは困難だ。予測システムを訓練するのに十分なデータがあるかどうかが不明だからだ。しかし、橋梁などの構造物の損傷予測など、応用の可能性については楽観的だ。

今週最後に、MIT の研究者からの注意喚起があります。彼らは、実際のニューラル ネットワークをシミュレートするために使用されているニューラル ネットワークは、トレーニングの偏りについて注意深く検査する必要があると警告しています。

ニューラルネットワークは、もちろん、私たちの脳が情報を処理し、信号を送る仕組みに基づいており、特定の接続やノードの組み合わせを強化します。しかし、だからといって、人工のものと本物のものが同じように動作するわけではありません。実際、MITの研究チームは、グリッド細胞(神経系の一部)をニューラルネットワークでシミュレーションしたところ、作成者によって厳密に制約された場合にのみ、同様の活動が生成されたことを発見しました。実際の細胞のように自己制御を許した場合、望ましい行動は得られませんでした。

だからといって、ディープラーニングモデルがこの分野で役に立たないということではありません。むしろ、非常に価値のあるものです。しかし、イラ・フィエテ教授が大学のニュース記事で述べているように、「ディープラーニングモデルは強力なツールになり得ますが、その解釈には慎重さが求められます。そして、それが本当に「de novo(新規)」な予測を行っているのか、あるいは脳が何を最適化しているのかを明らかにしているのかを判断するには、非常に慎重である必要があります。」