ディープサイエンス:AIは空気、水、土壌、鉄鋼の中に存在する

ディープサイエンス:AIは空気、水、土壌、鉄鋼の中に存在する

研究論文はあまりにも急速に発表されるため、全てを読むことは不可能です。特に機械学習の分野は、今や事実上あらゆる業界や企業に影響を与え(論文も発表されています)、その勢いは止まりません。本コラムでは、特に人工知能(AI)に限らず、近年の最も関連性の高い発見や論文をいくつか取り上げ、それらがなぜ重要なのかを説明します。

今週は、機械学習のいくつかの珍しい応用や開発、そしてパンデミック関連の分析におけるこの手法の特に珍しい拒否が報告されました。

連邦政府の規制当局はこうした分野に関しては時代遅れだと思われているため、政府規制の分野で機械学習が使われることはまず考えられません。ですから、米国環境保護庁がスタンフォード大学の研究者と提携し、環境規則違反者をアルゴリズムで排除しようとしていることは、驚くかもしれません。

問題の規模の大きさを考えれば、その理屈は理解できます。EPA当局は、水質浄化法(Clean Water Act)の遵守に関連する数百万件もの許可証や観察記録を処理する必要があります。これには、様々な産業からの汚染物質の自己申告量や、研究所や現場チームからの独立した報告書などが含まれます。スタンフォード大学が設計したプロセスは、これらの情報を整理し、どの種類の工場がどの地域で、どの人口統計に最も影響を与える可能性が高いかといったパターンを抽出します。例えば、都市周辺部における下水処理は、汚染を過小報告する傾向があり、有色人種のコミュニティを危険にさらしている可能性があります。

コンプライアンス問題をコンピューターで解析し比較できるものにまで減らすというプロセス自体が、当局の優先事項を明確にするのに役立ち、この技術によって小規模違反の許可保有者をより多く特定できる一方で、複数の大規模違反者を隠すための一般的な許可の種類から注意をそらす可能性があることが示されました。

もう一つの大きな廃棄物と費用の発生源は、スクラップ金属の処理です。大量のスクラップ金属が選別・リサイクルセンターに送られますが、そこでの作業は依然として大部分が人間によって行われており、ご想像の通り、危険で退屈な仕事です。東京大学発のスタートアップ企業であるEversteelは、このプロセスを自動化し、作業の大部分を人間が介入する前に完了させることを目指しています。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

AI が検出したさまざまな種類のアイテムのラベルが重ねられたスクラップ金属の画像。
画像クレジット: Eversteel

Eversteelは、コンピュータービジョンシステムを用いて、入ってくるスクラップを20種類近くのカテゴリーに分類し、不純なもの(リサイクルできない合金など)や異常なものをフラグ付けして除去しています。まだ初期段階ですが、この業界は衰退する気配はなく、モデルの学習に用いる大規模なデータセットが不足していたため(鉄鋼労働者の意見や画像から得た情報を基に、独自にデータセットを構築する必要がありました)、EversteelはこれがAIにとってまさに未開の領域であることを痛感しました。運が良ければ、彼らはシステムを商用化し、この大規模ながらも技術不足の業界に参入するために必要な資金を獲得できるでしょう。

コンピュータービジョンのもう一つの珍しい応用例は土壌モニタリングです。これは、すべての農家が定期的に行うべき水分と栄養分のモニタリング作業です。自動化できたとしても、かなり手間のかかる方法で行われています。南オーストラリア大学とバグダッドのミドル・テクニカル大学の研究チームは、現在使用されているセンサー、ハードウェア、サーマルカメラは過剰である可能性があることを示唆しています。

さまざまな照明の下で映し出された土の入ったバケツ。
画像クレジット: UNISA/ミドルテクニカル大学

驚くべきことに、彼らの答えは標準的なRGBデジタルカメラで、土壌の色を分析して水分量を推定するものでした。「様々な距離、時間、照度でテストしましたが、システムは非常に正確でした」と、開発者の一人であるアリ・アル=ナジ氏は語ります。このシステムは、業界標準のシステムを購入できない人々にとって、安価でありながら効果的なスマート灌漑システムの構築に活用でき、作物の収穫量を向上させることができる可能性があります(そして、実際にその計画が進められています)。

スマートスピーカーはどこにでも見かけますが、これは少し違います。ワシントン大学の研究者たちは、超音波を使ってユーザーの心拍を遠隔でモニタリングし、不整脈やその他の潜在的な問題をかなりの精度で検出できるデバイスを開発しました。

ワシントン大学の研究者たちは、スマートスピーカー用の新しいスキルを開発しました。このスキルは、規則的な心拍と不整脈の両方を非接触でモニターする機能です。写真は、ワシントン大学ポール・G・アレン・コンピュータサイエンス&エンジニアリング学部の博士課程学生で、この研究の筆頭著者であるアンラン・ワン氏が、研究チームが研究に使用したスマートスピーカーのプロトタイプ(手前の白い箱)と並んで座っています。画像クレジット:マーク・ストーン/ワシントン大学

筆頭著者でワシントン大学大学院生のアンラン・ワン氏は、この問題の難しさについて次のように説明した。「胸壁における呼吸の動きは、心拍の動きよりも桁違いに大きいため、非常に大きな課題となります。また、呼吸信号は不規則なので、単純にフィルタリングするのは困難です。スマートスピーカーには複数のマイクが搭載されているという事実を利用し、スピーカーが心拍を見つけられるように、新たなビームフォーミングアルゴリズムを設計しました。」

このシステムは、自己教師型機械学習モデルを用いて、ノイズから重要な微小信号を抽出します。ワシントン大学の著名な発明家で教授のシャム・ゴラコタ氏は、このシステムがうまく機能したことに「嬉しい驚き」を感じたと述べています。自宅で簡単に実施できる低コストで非侵襲的な検査は、見逃されやすい心臓疾患の特定に役立つ可能性があります。

予想通りに戻る

膨大なデータの選別は機械学習の得意分野となり、巨大データセットとの戦いにおける新たな戦線は、人間のノウハウを必要とせずにパターンを抽出できる教師なし学習の活用です。ロスアラモス国立研究所の研究者が開発したSmartTensorsツールは、まさにテラバイト規模のデータセットでこの処理を実行することを目的としています。

地球、DNA、CG粒子の画像がSmartTensorsのロゴと重なっています。
画像クレジット:ロスアラモス国立研究所

例えば、猫と犬の画像を区別する方法をエージェントに例を使って教える教師あり学習は、様々な理由から必ずしも実用的とは言えません。あるいは、データにそのようなラベル付けが必要ない場合もあります。教師なし学習では、エージェントは独自のパターンを見つけます。そのパターンは、人間が知っているパターン、あるいは探そうとしているパターンと一致する場合もあれば、一致しない場合もあります。LANLシステムは、地震学からテキストまで、幅広い科学分野にわたる膨大なデータセットを用いて、この学習を実行できるように構築されています。

Julia ベースの因数分解および特徴検索フレームワークは、ここで利用およびドキュメント化されています。これらの単語のいくつかが何であるか知っていれば、これは役立つかもしれません。

LANLの研究は、この記事のテーマに合致するほど意外なものではないかもしれないが、興味深いことに、成果が期待できると思われた取り組み、すなわち機械学習技術をCOVID-19の診断に適用する取り組みは、成果を上げていない。ケンブリッジ大学の報告書は、パンデミックの文脈で機械学習を活用する数百の試みを調査したが、どれもうまくいかなかったと結論付けている。

カラン・バイオテックの新しいナノコーティングは、COVID-19の屋内感染を防ぐ可能性がある

「我々のレビューでは、特定されたモデルはどれも、方法論的な欠陥や根本的な偏見のために、臨床で使用できる可能性がないことが判明した」と研究チームはNature Machine Intelligenceに掲載された論文に記している。

これはそれ自体が失敗だと捉えるべきではなく、単にアプローチを調整する必要があることを示唆しているに過ぎません。前例のない、そして急速に進化する世界的なパンデミックに最先端の技術を適用するということは、有効なものを見つけることと同じくらい、帰無仮説や誤ったアプローチを撒き散らすことにもつながります。研究者たちが保存する価値のあるものを何も見つけられなかったというのは少し意外かもしれませんが、彼らは論文における彼らの助言によって成功率がゼロより高くなることを期待しています。

ディープフェイクはAIの世界におけるもう一つの懸念事項であり、その作成と検出をめぐる熾烈な競争は、それ自体が一種の専門分野となっています。現状を示す例として、バッファロー大学が開発した、人物、あるいは「人物」の目に映る反射を注意深く観察することでディープフェイクを認識する技術が挙げられます。

不一致な反射を示すために人工的に生成された顔と目のクローズアップ。
画像クレジット: www.thispersondoesnotexist.com およびバッファロー大学

目に映る世界の映り込みは似ているはずなのに、ディープフェイクではそうではないことがよくあります。これは、顔を生成する敵対的生成ネットワークが認識しない、多くの小さな矛盾の一つです。もちろん、次世代のディープフェイクではこの点が考慮されるでしょう…そして、このサイクルは繰り返されるのです。

最後に、Facebookによる動画学習の取り組みをご紹介します。同社は他に類を見ないほど膨大なデータセットを保有しており、静止画や短いクリップで有効な技術を動画にも適用できるよう、スケールアップに注力してきました。

同様の音を出す掃除機、バイク、トラクターのビデオのスクリーンショット。
画像クレジット: Facebook

しかし、これは単に計算能力や効率性を向上させるだけではありません。Facebookにとって動画を理解するということは、それを文脈や他の動画と結びつけることを意味します。10本の動画で、人々が全く異なる場所で全く異なる動きをしているのが映っているとしても、音を加えると、全員が同じ曲に合わせて踊っていることがわかります。これは重要なことです!そして、これら2つのストリームからのデータを様々な方法で組み合わせることで、コンテンツの表示や整理に新しい興味深い方法を生み出すことができます。そのため、新しいパイプラインの一部は、このマルチフォーマットメディアの視覚的側面と聴覚的側面を統合するものです。

動画の音声面では、言語モデルの学習によく用いられる、より綿密に録音・管理されたライブラリではなく、自然な状況下で多様な言語が使用されていることも意味します。Facebookのwav2vec 2.0は学習速度が速く(つまり、数千時間分のラベル付きデータを必要としない)、現実世界の音声理解においては従来のモデルをはるかに上回る性能を示しました。

迅速かつ効果的な言語理解は、様々な理由から重要ですが、Facebookにとって特に重要なのは、Messenger、VR、その他の状況におけるリアルタイム字幕表示など、バーチャルコミュニケーションにおいてです(もちろん、広告掲載のための興味関心のより正確な把握も)。Facebookは現在、25の言語に対応する大規模なモデルの開発に取り組んでおり、近いうちにこの分野に関する新たな発表があることを期待できます。

最後に、デンマークの研究者クリスチャン・ウルフ=ニルセン氏に祝意を表します。彼は、単一源最短経路問題に対するほぼ最適な解法によって、グラフナビゲーションの基礎(多くの「AI」型問題の核心)が改善可能であることを示しました。「1000年先を見据えたとしても、これほど最適解に近いものはないでしょう」と彼は述べています。3021年にまたお会いしましょう。