静止画のディープフェイクだけでも十分ひどいのに、自分の写真をネット上にアップする人の動画もすぐに問題になるかもしれない。「Animate Anyone」を使えば、悪意のある人物がこれまで以上に巧みに人を操ることができるのだ。
この新しいジェネレーティブビデオ技術は、アリババグループのインテリジェントコンピューティング研究所の研究者によって開発されました。これは、DisCoやDreamPoseといった従来の画像から動画を生成するシステムから大きく前進したものです。これらのシステムは、夏には素晴らしい成果を上げましたが、今では過去のものとなっています。
「Animate Anyone」は決して前例のないものではありませんが、「ぎこちない学術実験」と「じっくり見なければ十分」の間の難しい境地を突破しました。周知の通り、次の段階はただ「十分」というだけで、人々はそれが現実だと思い込み、じっくり見ようとも思わなくなります。静止画とテキストによる会話はまさに今、私たちの現実感覚を混乱させているのです。
このような画像から動画へのモデル変換は、まず、販売用のドレスを着たモデルのファッション写真などの参照画像から、顔の特徴、模様、ポーズといったディテールを抽出することから始まります。次に、これらのディテールを、モーションキャプチャーで撮影したり、別の動画から抽出したりした、わずかに異なるポーズにマッピングした一連の画像を作成します。
以前のモデルではこれが可能であることが示されていましたが、多くの問題がありました。幻覚現象が大きな問題でした。モデルは、人が向きを変えたときに袖や髪がどのように動くかといった、もっともらしいディテールを作り上げなければなりませんでした。その結果、非常に奇妙な映像が多くなり、結果として得られる動画は説得力に欠けるものになっていました。しかし、可能性は残っており、「Animate Anyone」は大幅に改善されましたが、まだ完璧には程遠いものでした。
新モデルの技術的な詳細は、ほとんどのモデルを凌駕するものですが、論文では「モデルが一貫した特徴空間において参照画像との関係を包括的に学習できるようにし、外観の詳細の保持率の向上に大きく貢献する」という新たな中間ステップが強調されています。基本情報と微細情報の保持率が向上することで、生成される画像はより強力なグラウンドトゥルース情報を持つようになり、結果的に品質が大幅に向上します。

彼らはいくつかの状況でその成果を披露します。ファッションモデルは、服の型崩れや変形をすることなく、思いのままのポーズをとります。2Dアニメのキャラクターは生き生きと動き、迫力あるダンスを披露します。リオネル・メッシは、ありきたりな動きをいくつか披露します。
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日
完璧とは程遠いものです。特に目と手は、生成モデルにとって特に厄介な問題です。そして、最もよく表現されるポーズは、元のモデルに最も近いポーズです。例えば、人物が振り向くと、モデルは追従に苦労します。しかし、以前の最先端技術では、はるかに多くのアーティファクトが生成されたり、人物の髪の色や服装などの重要なディテールが完全に失われていたことを考えると、これは大きな飛躍です。
悪意のある俳優(あるいはプロデューサー)が、あなたの高画質画像一枚さえあれば、あなたに何でもさせられる、しかも顔アニメーションや音声キャプチャ技術と組み合わせれば、どんな表現もさせられる、と考えると不安になります。今のところ、この技術は一般利用には複雑すぎてバグも多いですが、AIの世界では状況が長く続くことはまずありません。
少なくとも、チームはまだコードを世に公開するつもりはありません。GitHubページはありますが、開発者たちは次のように書いています。「デモとコードを一般公開に向けて積極的に準備を進めています。現時点では具体的なリリース日をお約束することはできませんが、デモとソースコードの両方へのアクセスを提供するという確固たる意志があることをご理解ください。」
インターネットが突然ダンスフェイクで溢れかえったら、一体どうなるんだろう? きっと予想よりも早く、その答えが見つかるだろう。
デヴィン・コールドウェイはシアトルを拠点とする作家兼写真家です。
彼の個人ウェブサイトは coldewey.cc です。
バイオを見る