多くのテクノロジー企業が期待しているように、未来のAIがARグラスやその他のウェアラブルデバイスを通して人間の目を通して物事を見るようになるとしたら、AIは人間の視点を理解する方法を学ぶ必要があるだろう。もちろん私たちはそれに慣れているが、日常の行動を捉えた一人称視点の動画は驚くほど少ない。だからこそFacebookは数千時間分の映像を収集し、新たに公開データセットを作成したのだ。
Facebookが解決しようとしている課題は、今日の最も優れた物体・シーン認識モデルでさえ、ほぼ三人称視点のみで学習されているという点です。そのため、料理をしている人を認識できますが、それはその人物がキッチンに立っている場合に限られ、その人の目線からの視点では認識できません。また、自転車は認識できますが、乗っている人の視点では認識できません。これは私たちにとって自然な経験であるため、当然のこととして認識されている視点の変化ですが、コンピューターにとっては非常に困難なことです。
機械学習の問題に対する解決策は、一般的にデータの量か質のどちらかですが、今回の場合は両方あっても損はありません。そこでFacebookは、料理、食料品の買い物、靴ひもを結んだり、ただぶらぶらしたりといった日常的な行動の一人称視点の動画を収集するため、世界中の研究パートナーと連絡を取りました。
13の提携大学は、9カ国700名を超える参加者から数千時間分のビデオを収集しました。まず最初に申し上げておきたいのは、参加者はボランティアであり、自らの関与とアイデンティティのレベルをコントロールしていたということです。研究チームはビデオを視聴、編集、手作業で注釈を付け、さらに、実際には撮影できなかった舞台装置で撮影した映像も追加することで、数千時間分を3,000時間にまで絞り込みました。その内容はすべてこの研究論文に記載されています。
映像は、メガネ型カメラからGoProなどのデバイスまで、様々な方法で撮影されました。研究者の中には、人物が作業していた環境をスキャンした人もいれば、視線の方向などの指標を追跡した人もいました。これらの映像はすべて、Facebookが「Ego4D」と呼ぶデータセットにまとめられ、研究コミュニティ全体に無料で公開されます。

「AIシステムが人間と同じように世界とインタラクションするためには、AI分野は一人称知覚という全く新しいパラダイムへと進化する必要があります。つまり、リアルタイムの動き、インタラクション、そして多感覚的な観察という文脈において、人間の目を通して日常生活の活動をAIに理解させるということです」と、主任研究者のクリステン・グローマン氏はFacebookのブログ投稿で述べています。
信じ難いかもしれないが、この研究とレイバン・ストーリーズのスマートサングラスは全く無関係だ。Facebookは明らかに、一人称視点での理解が様々な分野においてますます重要になっていると考えている。(ただし、3Dスキャンは同社のAIトレーニングシミュレーター「Habitat」で活用できるかもしれない。)
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日
「私たちの研究は、拡張現実(AR)とロボティクスへの応用を強く意識しています」とグローマン氏はTechCrunchに語った。「一人称視点の知覚は、未来のAIアシスタントを実現する上で極めて重要です。特にARグラスのようなウェアラブルデバイスが、人々の生活や動きに不可欠な要素となる中で、その重要性はさらに増しています。もしデバイス上のアシスタントが、あなたの目を通して世界を理解し、生活から認知的負担を軽減してくれたら、どれほど有益になるか想像してみてください。」
収集された動画がグローバルな性質を持つのは、非常に意図的な動きです。単一の国や文化の画像のみを含めるのは、根本的に近視眼的です。アメリカのキッチンは、フランスのキッチン、ルワンダのキッチン、日本のキッチンとは様相が異なります。同じ材料で同じ料理を作ること、あるいは同じ一般的な作業(掃除、運動)を行うことでさえ、文化全体はおろか、個人間でさえも様相が大きく異なる可能性があります。そのため、Facebookの投稿にあるように、「既存のデータセットと比較して、Ego4Dデータセットはより多様なシーン、人物、活動を提供しており、これにより、様々な背景、民族、職業、年齢の人々向けに訓練されたモデルの適用性が向上します。」

Facebookが公開しているのはデータベースだけではありません。データ収集におけるこのような飛躍的な進歩に伴い、特定のモデルが情報をどれだけ効果的に活用しているかをテストするためのベンチマークも公開するのが一般的です。例えば、犬と猫の画像セットの場合、どちらがどちらかを識別するモデルの有効性をテストするための標準的なベンチマークが必要になるかもしれません。
この場合、状況は少し複雑になります。一人称視点で物体を識別すること自体はそれほど難しくありません。実際には、単に視点が違うだけです。そして、それほど目新しいことでも便利なことでもありません。「あれはトマトだ」と教えてくれるのに、本当にARグラスが必要なのでしょうか?いいえ、そうではありません。他のツールと同様に、ARデバイスはユーザーが知らないことを伝えるべきであり、そのためには、ユーザーの意図、状況、関連する行動などをより深く理解する必要があります。
そのために研究者たちは、この一人称画像を分析することで、理論的には達成できる 5 つのタスクを考案しました。
- エピソード記憶: 時間と空間内で物体や概念を追跡し、「鍵はどこ?」などの任意の質問に答えられるようにします。
- 予測: イベントの順序を理解することで、「レシピの次は何か?」などの質問に答えたり、「車の鍵を家に置き忘れた」などの事態を事前に把握したりすることができます。
- 手と物体の相互作用: 人がどのように物体をつかんで操作するか、またその際に何が起こるかを特定します。これはエピソード記憶に取り込んだり、それらの動作を模倣しなければならないロボットの動作を通知したりすることができます。
- オーディオビジュアル・ダイアライゼーション:音とイベントやオブジェクトを関連付けることで、カフェで流れている曲は何だったのか、会議の最後に上司は何を言ったのかといった状況で、音声や音楽をインテリジェントに追跡できるようにします。(「ダイアライゼーション」は彼らの「言葉」です。)
- ソーシャル インタラクション: 誰が誰に話しかけているのか、何が話されているのかを理解し、他のプロセスに通知する目的と、複数の人がいる騒がしい部屋で字幕を付けるなどの瞬間的な使用の両方を実現します。
もちろん、これらは唯一の応用やベンチマークではありません。特定のAIモデルが一人称視点の動画で何が起こっているかを実際に理解できるかどうかをテストするための、初期のアイデアの集合にすぎません。Facebookの研究者たちは、論文に記載されている各タスクの基本レベルの実行を行い、これが出発点となっています。また、この研究をまとめた動画には、各タスクが成功した場合の、いわば空想的な動画例も掲載されています。
グローマン氏は、25万時間以上に及ぶ研究者の作業時間を綿密に手作業で記録した3,000時間というデータは、現在公開されているデータと比べると桁違いに多いものの、まだ十分に拡大の余地があると指摘した。彼らはデータセットの拡大を計画しており、パートナーも積極的に追加している。
データの利用にご興味がおありでしたら、Facebook AI Researchのブログをチェックし、論文に記載されている多数の専門家の一人に連絡を取ってみてください。コンソーシアムが具体的な方法を決定次第、数ヶ月以内に公開される予定です。