MetaのV-JEPA 2モデルはAIに周囲の状況を理解するように教える

MetaのV-JEPA 2モデルはAIに周囲の状況を理解するように教える
Facebookメタロゴ
画像クレジット:ブライス・ダービン / TechCrunch

Metaは水曜日に、AIエージェントが周囲の世界を理解するのを支援するために設計された「世界モデル」である新しいV-JEPA 2 AIモデルを発表した。

V-JEPA 2は、Metaが昨年リリースしたV-JEPAモデルの拡張版であり、100万時間以上の動画で学習されています。この学習データは、ロボットやその他のAIエージェントが物理世界で動作し、重力などの概念がシーケンス内の次の動作にどのような影響を与えるかを理解し、予測するのに役立つとされています。

これらは、小さな子供や動物の脳が発達するにつれて形成される、一種の常識的なつながりです。たとえば、犬とボール遊びをすると、犬は、地面でボールをバウンドさせると上方に跳ね返ることや、ボールが落ちると思われる場所に向かって走るのではなく、その瞬間にボールがどこにあるかを理解するでしょう (うまくいけば)。

Metaは、例えば、ロボットが皿とヘラを持って、調理済みの卵が入ったコンロに向かって歩くという視点に直面する例を示します。AIは、次にヘラを使って卵を皿に移すという行動が、非常に起こり得ると予測できます。

Metaによると、V-JEPA 2は、物理世界に関する知能の強化を目指すNvidiaのCosmosモデルよりも30倍高速です。しかし、MetaはNvidiaとは異なるベンチマークで自社のモデルを評価している可能性があります。

「世界モデルはロボット工学の新しい時代を切り開き、膨大な量のロボットトレーニングデータを必要とせずに、現実世界のAIエージェントが家事や物理的な作業を支援できるようになると私たちは信じています」とMetaの主任AI科学者ヤン・ルカン氏はビデオで説明した。

トピック

アマンダ・シルバーリングは、TechCrunchのシニアライターとして、テクノロジーと文化の交差点を専門に執筆しています。Polygon、MTV、Kenyon Review、NPR、Business Insiderなどの出版物にも寄稿しています。SF作家のイザベル・J・キムと共に、インターネット文化に関するポッドキャスト「Wow If True」の共同ホストを務めています。TechCrunch入社前は、草の根活動のオーガナイザー、博物館教育者、映画祭のコーディネーターとして活躍しました。ペンシルベニア大学で英文学の学士号を取得し、ラオスでプリンストン・イン・アジア・フェローを務めました。

暗号化メッセージアプリ「Signal」を使って、@amanda.100 までヒントをお送りください。その他、またはアウトリーチの確認については、[email protected]までメールでお問い合わせください。

バイオを見る