機械学習は、学習に必要なデータさえあれば、あらゆることが可能になります。しかし、それは必ずしも容易なことではありません。研究者たちは、AIにちょっとした「常識」を付加する方法を常に模索しています。そうすれば、猫の写真を500枚も見せなくても、AIは理解できるようになります。Facebookの最新の研究は、このデータボトルネックの解消に向けて大きな一歩を踏み出しました。
同社の強力なAI研究部門は、高度なコンピュータービジョンアルゴリズムなどの技術の進化と拡張に長年取り組んでおり、着実な進歩を遂げており、その成果は概ね他の研究コミュニティと共有されています。Facebookが特に追求してきた興味深い開発の一つは、「半教師あり学習」と呼ばれるものです。
一般的にAIの学習というと、前述の500枚の猫の写真のようなものを思い浮かべます。画像を選択してラベル付け(猫の輪郭を描いたり、猫を四角で囲んだり、単に「猫がいる」と表示したりするなど)することで、機械学習システムが猫の認識プロセスを自動化するアルゴリズムを構築します。当然、犬や馬の学習には犬の写真500枚、馬の写真500枚などが必要になります。これは「線形スケール」ですが、テクノロジーの世界では絶対に聞きたくない言葉です。
半教師あり学習は「教師なし」学習に関連しており、ラベル付けされたデータが全くない状態でデータセットの重要な部分を見つけ出します。これは単なる無秩序な学習ではなく、構造も考慮に入れています。例えば、システムに1000個の文を学習させ、さらにいくつかの単語が抜けている文を10個見せたとします。システムはおそらく、前の1000個の文で見たものに基づいて、空白を埋めるという適切な処理ができるでしょう。しかし、画像や動画ではそう簡単にはいきません。それほど単純で予測可能ではないからです。
しかし、Facebookの研究者たちは、簡単ではないかもしれないが、可能であり、実際非常に効果的であることを示しました。DINOシステム(「ラベルなしの知識の蒸留(DIstillation of knowledge with NO labels)」の略で、やや説得力に欠けますが)は、ラベル付けされたデータが全くなくても、人、動物、物体の動画から興味のあるオブジェクトを非常にうまく見つけ出す学習能力を備えています。

これは、ビデオを順番に1枚ずつ分析する一連の画像としてではなく、「一連の単語」と「文」の違いのように、複雑で相互に関連したセットとして考えることによって行われます。ビデオの最初だけでなく、中間と最後に注意を払うことで、エージェントは「この一般的な形状のオブジェクトが左から右に移動する」などの感覚を得ることができます。この情報は他の知識にフィードされます。たとえば、右側のオブジェクトが最初のオブジェクトと重なっている場合、システムはそれらが同じものではなく、それらのフレームで単に接触していることを認識します。そして、この知識は次に他の状況に適用できます。言い換えると、エージェントは視覚的な意味の基本的な感覚を開発し、新しいオブジェクトに関するトレーニングを驚くほど少なくしてこれを行います。
その結果、従来の訓練を受けたシステムと比較して優れたパフォーマンスを発揮するだけでなく、より関連性と説明性に優れたコンピュータービジョンシステムが実現しました。例えば、犬の写真500枚と猫の写真500枚で訓練されたAIは両方を認識しますが、それらが何らかの点で類似していることを実際には認識しません。しかしDINOは、具体的には認識できないものの、車よりも視覚的に類似していることを理解し、メタデータとコンテキストがメモリに記録されています。犬と猫は、DINOのデジタル認知空間において、犬と山よりも「近い」のです。ここでは、これらの概念を小さな塊として見ることができます。同じ種類の概念がどのようにくっついているかをご覧ください。
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日

これには独自の利点がありますが、技術的な側面についてはここでは触れません。ご興味があれば、Facebookのブログ記事にリンクされている論文で詳細をご覧ください。
関連する研究プロジェクトとして、ラベル付きデータの必要性をさらに低減するPAWSと呼ばれる学習手法があります。PAWSは、半教師あり学習の考え方と、より伝統的な教師あり学習手法を組み合わせたもので、ラベル付きデータとラベルなしデータの両方から学習させることで、学習効果を高めます。
もちろん、Facebook は、ユーザー向けの多くの(そして秘密の)画像関連製品のために、優れた高速画像分析を必要としていますが、コンピューター ビジョンの世界へのこれらの一般的な進歩は、他の目的のために開発者コミュニティに歓迎されるに違いありません。
コンピュータービジョンって何ですか?
強化されたコンピュータービジョンとセンサーがサービスとしてのロボットの製造における重要性を高める
デヴィン・コールドウェイはシアトルを拠点とする作家兼写真家です。
彼の個人ウェブサイトは coldewey.cc です。
バイオを見る