TechCrunchが世界中のAIニュースと研究を毎週まとめる「Perceptron」へようこそ。機械学習は今やほぼすべての業界で重要な技術であり、あまりにも多くの出来事が起こっており、すべてを把握するのは容易ではありません。このコラムでは、人工知能分野における最近の最も興味深い発見や論文をいくつか取り上げ、それらがなぜ重要なのかを解説します。
(以前は Deep Science として知られていました。以前の版はここでご覧ください。)
今週のまとめは、Facebook/Metaによる2つの先進的な研究から始まります。1つ目は、イリノイ大学アーバナ・シャンペーン校との共同研究で、コンクリート生産に伴う排出量の削減を目指しています。コンクリートは二酸化炭素排出量の約8%を占めており、わずかな改善でも気候変動対策目標の達成に貢献できる可能性があります。

Meta/UIUCチームは、砂、スラグ、すりガラス、その他の材料の割合が異なる1000種類以上のコンクリート配合を用いてモデルを学習させました(上の写真に写りやすいコンクリートのサンプルが写っています)。このデータセットの微妙な傾向を見つけることで、強度と低排出ガスの両方を最適化する新たな配合を複数生成することができました。最終的に採用された配合は、地域基準よりも排出量を40%削減し、強度要件の一部も満たしました。これは非常に有望な成果であり、この分野での追跡研究によって、近いうちに再び進展が見られるはずです。
Meta社の2つ目の研究は、言語モデルの働き方を変えることに関するものです。同社は神経イメージングの専門家や他の研究者と協力し、類似のタスクにおける言語モデルと実際の脳活動を比較したいと考えています。
特に、彼らは、話したり聞いたりしているときに、現在の単語よりずっと先の単語を予測する人間の能力に興味を持っています。例えば、文が特定の方法で終わるか、あるいは「しかし」が来るかを知っているといったことです。AIモデルは非常に優れたものになってきていますが、まだレゴブロックのように単語を一つずつ追加し、時折過去を振り返って意味が通るかどうかを確認するという形で動作しています。研究はまだ始まったばかりですが、すでに興味深い成果が得られています。
材料の話に戻りますが、オークリッジ国立研究所の研究者たちはAIによる調合の楽しさに取り組んでいます。量子化学計算のデータセット(それが何であれ)を用いて、研究チームは材料特性を予測できるニューラルネットワークを構築しました。さらに、このニューラルネットワークを逆変換することで、特性を入力すると材料を提案できるようにしました。
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日
「材料を取り上げ、その特性を予測するのではなく、目的に最適な特性を選び、そこから逆算して、高い信頼性のもとで迅速かつ効率的に設計を進めたいと考えました。これは逆設計と呼ばれています」と、ORNLのVictor Fung氏は述べています。この方法はうまくいったようですが、Githubでコードを実行してご自身で確認することもできます。

ETHZのこのプロジェクトは、全く異なるスケールでの物理的予測に着目し、ESAのコペルニクス・センチネル2衛星(光学画像)とNASAのGEDI(軌道レーザー測距)のデータを用いて、世界中の樹冠高を推定します。畳み込みニューラルネットワークでこれら2つを組み合わせることで、最大55メートルの樹高の正確な世界地図が作成されます。
NASAのラルフ・ドゥバヤ氏が説明するように、地球規模でこのようなバイオマスの定期調査を実施できることは、気候監視にとって重要です。「地球全体の樹木の高さは、私たちには全く分かりません。樹木がどこにあるのかを示す、正確な地球地図が必要です。なぜなら、木を伐採するたびに大気中に炭素が放出されますが、どれだけの炭素を放出しているのか、私たちには分からないからです。」
ここでは地図形式でデータを簡単に閲覧できます。
ランドスケープ関連では、DARPAのプロジェクトも挙げられます。これは、仮想自動運転車が走行するための極めて大規模なシミュレーション環境を構築することを目的としています。DARPAは契約をIntelに発注しましたが、DARPAが求めるものを30ドルで実現するゲーム「Snowrunner」の開発者に依頼することで、ある程度の費用を節約できたかもしれません。

RACER-Simの目標は、岩だらけの砂漠やその他の過酷な地形を轟音とともに走り抜ける感覚を既に備えたオフロードAVの開発です。4年間のプログラムは、まず環境の構築とシミュレーターでのモデル構築に重点を置き、その後、そのスキルを実際のロボットシステムへ応用していきます。
現在約500社が参加するAI医薬品分野において、MITは実際に製造可能な分子のみを提案するモデルという健全なアプローチを採用しています。「モデルは、実験室で製造するのが困難、あるいは不可能な新しい分子構造を提案することがよくあります。化学者が実際にその分子を製造できなければ、その疾患に対する効果を検証することはできません。」

MITのモデルは、「分子が購入可能な材料で構成され、それらの材料間で起こる化学反応が化学の法則に従うことを保証する」ものです。これはMolecule.oneが行っていることと似ていますが、発見プロセスに統合されている点が異なります。AIが提案する奇跡の薬に、魔法の粉やその他の特殊な物質が不要だとわかれば、確かに嬉しいですよね。
MIT、ワシントン大学、その他によるもう一つの研究は、ロボットに日常的な物体とのインタラクションを学習させることです。食器洗い機を持っていない人もいるでしょうから、今後20~30年で誰もが当たり前のことになると願っていることです。問題は、モデルを学習させるためのデータを高忠実度で中継できないため、人間がどのように物体とインタラクションするかを正確に把握することが非常に難しいことです。そのため、大量のデータアノテーションと手作業によるラベル付けが必要になります。
この新技術は、3Dジオメトリを非常に詳細に観察・推測することに重点を置いているため、人が物体を掴む様子を数回観察するだけで、システムはその動作を自ら学習します。通常、シミュレーターでは数百回の例や数千回の反復操作が必要となる場合もありますが、この技術では、物体ごとにわずか10回の人間によるデモンストレーションで、その物体を効果的に操作することができました。

この最小限のトレーニングで85%の成功率を達成し、ベースラインモデルをはるかに上回りました。現在は少数のカテゴリーに限定されていますが、研究者たちは一般化できることを期待しています。
今週最後にご紹介するのは、Deepmindによる有望なマルチモーダル「視覚言語モデル」です。これは視覚的知識と言語的知識を組み合わせ、「柵の上に3匹の猫が座っている」といった概念を、文法とイメージのクロスオーバー表現で表現するものです。結局のところ、私たち自身の心の働きもまさにそのように機能しているのです。
彼らの新しい「汎用」モデルであるFlamingoは、視覚的な識別だけでなく対話も行えます。これは、2つのモデルを1つにまとめているからではなく、言語と視覚的な理解を融合させているからです。他の研究機関の例からもわかるように、このようなマルチモーダルなアプローチは優れた成果を生み出しますが、依然として非常に実験的で、計算負荷が高いのが現状です。