機械学習とAIは、今やほぼあらゆる業界や企業にとって重要な技術となっていますが、その研究は膨大で、全てを読むのは容易ではありません。このコラム「Perceptron」(旧称「Deep Science」)は、特に人工知能(AI)分野に限らず、近年の最も関連性の高い発見や論文を収集し、それらがなぜ重要なのかを説明することを目的としています。
今週のAI誌に掲載された新たな研究は、AIシステムに共通する問題であるバイアスが、AIシステムが予測を学習するためのデータにアノテーションを付与するために採用された人々に与えられる指示からどのように発生するかを明らかにしています。共著者らは、アノテーターが指示のパターンを拾い上げ、それがアノテーションを付与するように条件付け、それがデータ中に過剰に表れるようになり、AIシステムがこれらのアノテーションに偏ってしまうことを発見しました。
今日の多くのAIシステムは、アノテーターによってラベル付けされた例から、画像、動画、テキスト、音声の意味を「学習」します。ラベル付けによって、システムは例間の関係性(例えば、「キッチンシンク」というキャプションとキッチンシンクの写真の関連性)を、システムがこれまで見たことのないデータ(例えば、モデルを「学習」するために使用されたデータには含まれていなかったキッチンシンクの写真)に外挿することができます。
これは驚くほどうまく機能します。しかし、アノテーションは不完全なアプローチです。アノテーターがバイアスを持ち込み、それが学習済みのシステムに影響を及ぼす可能性があります。例えば、研究によると、平均的なアノテーターは、一部の黒人アメリカ人が使用する非公式な文法であるアフリカ系アメリカ人方言英語(AAVE)のフレーズを有害とラベル付けする可能性が高く、ラベルに基づいて学習されたAIの有害性検出機能は、AAVEを不釣り合いに有害であると認識する傾向があります。
結局のところ、ラベルの訓練におけるバイアスの存在は、アノテーターの先入観だけが原因ではないかもしれない。アリゾナ州立大学とアレンAI研究所によるプレプリント研究では、データセット作成者がアノテーター向けのガイドとして作成した指示書にバイアスの原因があるかどうかが調査された。こうした指示書には通常、タスクの簡単な説明(例:「これらの写真に写っているすべての鳥にラベルを付ける」)といくつかの例が含まれている。

研究者たちは、自然言語処理システム(テキストの分類、要約、翻訳、その他分析や操作を行うAIシステム)の性能を測定するために使用される14種類の「ベンチマーク」データセットを調査しました。データセットで作業するアノテーターに与えられたタスク指示を調査した結果、指示がアノテーターに特定のパターンに従うよう影響を与え、それがデータセット全体に波及しているという証拠が見つかりました。例えば、AIシステムが2つ以上の表現が同じ人物(または物)を指しているかどうかを理解する能力をテストするために設計されたデータセット「Quoref」のアノテーションの半分以上は「What is the name(名前は何ですか)」というフレーズで始まり、このフレーズはデータセットの指示の3分の1に含まれています。
研究者たちが「指示バイアス」と呼ぶこの現象は、偏った指示/注釈データで訓練されたシステムが当初考えられていたほどうまく機能しない可能性があることを示唆しているため、特に懸念される。実際、共著者たちは、指示バイアスがシステムのパフォーマンスを過大評価し、これらのシステムが指示パターンを超えた汎化に失敗することが多いことを発見した。
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日
明るい兆しとしては、OpenAIのGPT-3のような大規模システムは、一般的に指示バイアスの影響を受けにくいことがわかった。しかし、この研究は、人間と同様に、AIシステムも必ずしも明白ではない原因からバイアスが生じやすいことを改めて認識させるものである。解決困難な課題は、こうした原因を発見し、下流への影響を軽減することである。
スイス出身の科学者たちは、あまり深刻ではない論文で、顔認識システムはAIによって加工されたリアルな顔では容易に騙されないと結論付けました。「モーフィング攻撃」と呼ばれるこの攻撃は、ID、パスポート、その他の身分証明書の写真をAIで加工し、セキュリティシステムを回避することを目的としています。共著者らはAI(NVIDIAのStyleGAN 2)を用いて「モーフ」を作成し、4つの最先端の顔認識システムでテストしました。その結果、実物そっくりの外観にもかかわらず、モーフは大きな脅威にはならないと研究者らは主張しました。
コンピュータービジョン分野の他の分野では、Metaの研究者たちが、物体の位置や状況など、部屋の特徴を記憶して質問に答えることができるAI「アシスタント」を開発しました。プレプリント論文で詳細が説明されているように、この研究は、AIを活用して周囲の環境を分析する拡張現実(AR)グラスを開発するというMetaのProject Nazareイニシアチブの一環であると考えられます。

研究者らのシステムは、カメラを搭載したあらゆる装着型デバイスで使用できるように設計されており、映像を分析して「物体に関する時空間情報をエンコードする」意味的に豊かで効率的なシーンメモリを構築する。このシステムは、物体が映像内にどこに現れたか、いつ現れたかを記憶し、さらに、ユーザーが物体について尋ねる質問への回答をメモリに組み込む。例えば、「最後に私の鍵をどこで見ましたか?」と尋ねられた場合、システムはその朝、鍵がリビングルームのサイドテーブルの上にあったと答えることができる。
2024年にフル機能のARグラスを発売すると報じられているMetaは、昨年10月に長期的な「自己中心的知覚」AI研究プロジェクトであるEgo4Dを立ち上げ、「自己中心的」AIへの計画を示唆した。同社は当時、その目標はAIシステムに、社会的合図の理解、ARデバイス装着者の行動が周囲に与える影響、手と物体の相互作用といったタスクを学習させることだと述べていた。
言語、拡張現実、物理現象まで:MITの波の研究において、AIモデルが波がどのように、いつ砕けるのかという研究に役立っています。少し難解に思えるかもしれませんが、実は波モデルは、水の中や水辺の構造物を建設するだけでなく、気候モデルにおいて海洋と大気の相互作用をモデル化するためにも必要なのです。

通常、波は一連の方程式で大まかにシミュレートされますが、研究者たちは、センサーで満たされた高さ40フィートの水槽で数百の波の事例を用いて機械学習モデルを訓練しました。波を観測し、経験的証拠に基づいて予測を行い、それを理論モデルと比較することで、AIはモデルのどこに欠陥があるのかを示すのに役立ちました。
EPFLの研究からスタートアップが誕生しました。ティボー・アセルボーン氏の筆跡分析に関する博士論文が、本格的な教育アプリへと発展しました。彼が開発したアルゴリズムを用いたこのアプリ(School Rebound)は、子供がiPadにスタイラスペンで30秒間書き込むだけで、その癖と改善策を特定します。これらの改善策は、ゲーム形式で子供に提示され、良い習慣を強化することで、より明確な字を書くための助けとなります。
「当社の科学的モデルと厳密さは重要であり、それが他の既存のアプリケーションとの差別化要因です」とアセルボーン氏はニュースリリースで述べています。「生徒たちの飛躍的な向上を目の当たりにした先生方からお手紙をいただいています。中には授業前に練習に来る生徒もいます。」

小学校におけるもう一つの新たな発見は、定期検診における聴覚障害の発見に関するものです。読者の皆さんもご存知かもしれませんが、これらの検診ではティンパノメーターと呼ばれる機器が使用されることが多く、これは訓練を受けた聴覚専門医によって操作される必要があります。例えば、隔絶された学区ではティンパノメーターが利用できない場合、聴覚障害のある子どもたちは必要な支援を適切なタイミングで受けられない可能性があります。
デューク大学のサマンサ・ロブラー氏とスーザン・エメット氏は、実質的に自動で動作するティンパノメーターの開発を決定しました。この機器はスマートフォンアプリにデータを送信し、AIモデルがそれを解釈します。疑わしい兆候があればフラグが付けられ、子どもはさらなるスクリーニングを受けることができます。専門家の助けに代わるものではありませんが、何もないよりははるかに優れており、適切なリソースが不足している地域では、聴覚障害をより早期に発見するのに役立つ可能性があります。