Metaは昨年、画像内のほぼあらゆるものを迅速かつ確実に識別し、輪郭を描くことができる機械学習モデル「Segment Anything」で目覚ましい成功を収めました。CEOのマーク・ザッカーバーグ氏が月曜日のSIGGRAPHのステージで初公開したこの続編では、このモデルを動画領域にも適用し、この分野の急速な進歩を物語っています。
セグメンテーションとは、視覚モデルが画像を見て、その部分を認識する技術用語です。「これは犬、これは犬の後ろの木」といった具合に、できれば「これは犬から生えている木だ」とは認識しないようにしましょう。これは何十年も前から行われてきましたが、最近では「Segment Anything」によって大幅に精度と速度が向上しました。
Segment Anything 2 (SA2) は、静止画像だけでなくビデオにネイティブに適用できるという点で自然な後継です。もちろん、最初のモデルをビデオのすべてのフレームに個別に実行することもできますが、これは最も効率的なワークフローではありません。
「科学者たちは、サンゴ礁や自然の生息地などを研究するためにこの技術を使っています。しかし、これを動画で、しかもゼロショットで、しかも望むことを指示できるというのは、本当に素晴らしいことです」とザッカーバーグ氏は、NVIDIAのCEO、ジェンスン・フアン氏との会話の中で語った。
動画処理は当然ながらはるかに高い計算負荷を必要とします。SA2がデータセンターの負荷を軽減しながら実行できることは、業界全体で効率化が進められてきたことの証です。もちろん、SA2は依然として大規模なモデルであり、動作には高度なハードウェアが必要ですが、高速で柔軟なセグメンテーションは1年前でさえ事実上不可能でした。

このモデルは、最初のモデルと同様にオープンで無料で利用可能となります。AI企業が時々提供するようなホスト型バージョンについては言及されていません。ただし、無料デモはあります。
当然のことながら、このようなモデルの学習には膨大なデータが必要であり、Metaはこの目的のために作成した5万本の動画からなる大規模なアノテーション付きデータベースも公開しています。SA2に関する論文では、10万本以上の「社内利用可能な」動画からなる別のデータベースも学習に使用されていましたが、こちらは非公開です。Metaに、これがどのようなもので、なぜ非公開なのかについて詳細を問い合わせました。(おそらく、InstagramやFacebookの公開プロフィールから取得されていると思われます。)
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日

Metaはここ数年、「オープン」なAI分野でリーダー的存在であり続けていますが、実際には(ザッカーバーグ氏が会話の中で述べたように)PyTorchなどのツールによって、かなり以前からその地位を築いてきました。しかし最近では、LLaMa、Segment Anything、そして同社が無料で公開している他のいくつかのモデルが、これらの分野におけるAIパフォーマンスの比較的手頃な基準となっているものの、その「オープン性」については議論の余地があります。
ザッカーバーグ氏は、Meta でのオープンな姿勢は善意から生まれたものではないが、だからといって彼らの意図が不純だというわけではない、と述べた。
これはただ作れるソフトウェアではありません。それを取り巻くエコシステムが必要です。オープンソース化しなければ、ほとんどうまく機能しないでしょう? 利他的な人間だからやっているわけではありません。もちろん、これはエコシステムにとって役立つとは思っていますが。私たちが作っているものが最高のものになると信じてやっているのです。
いずれにせよ、きっとよく使われるでしょう。GitHubはこちらでご覧ください。
デヴィン・コールドウェイはシアトルを拠点とする作家兼写真家です。
彼の個人ウェブサイトは coldewey.cc です。
バイオを見る