柔軟な表情は3Dで生成された顔を不気味の谷から抜け出す可能性がある

柔軟な表情は3Dで生成された顔を不気味の谷から抜け出す可能性がある

3Dレンダリングされた顔は、今やあらゆる大作映画やゲームで欠かせない要素となっていますが、自然な形でキャプチャし、アニメーション化する作業は容易ではありません。ディズニー・リサーチは、このプロセスをスムーズにする方法の開発に取り組んでおり、その一つに、不気味の谷現象に陥ることなく3D顔の生成と操作をはるかに容易にする機械学習ツールがあります。

もちろん、この技術は、以前のぎこちない表情や限られたディテールから大きく進歩しました。高解像度でリアルな3Dの顔は、素早く美しくアニメーション化できますが、人間の表情の繊細さは無限に多様であるだけでなく、簡単に間違えてしまうこともあります。

笑うと顔全体がどう変わるか考えてみてください。人それぞれ違いますが、共通点がたくさんあるので、その人が「本当に」笑っているのか、それとも作り笑いをしているのか、見分けられる気がします。人工の顔で、これほどの細かさをどうやって実現できるのでしょうか?

既存の「線形」モデルは表情の微妙なニュアンスを単純化し、「喜び」や「怒り」といった表情を細かく調整できるようになっていますが、その分精度が犠牲になっています。あらゆる表情を表現できるわけではなく、あり得ない表情も簡単に作り出してしまうからです。新しいニューラルモデルは表情の相互関係を観察することで複雑性を学習しますが、他の同様のモデルと同様に、その仕組みは不明瞭で制御が難しく、学習した顔以外には一般化できないかもしれません。映画やゲーム制作に携わるアーティストに必要なレベルの制御は実現できず、(人間はこれを見抜くのが驚くほど得意ですが)どこかズレた表情も作り出してしまうのです。

ディズニー・リサーチのチームが、両方の長所を兼ね備えた新しいモデル、「セマンティック・ディープ・フェイス・モデル」を提案しています。具体的な技術的実装には触れませんが、基本的な改良点は、顔の表情が顔全体にどのように影響するかを学習するニューラルモデルでありながら、特定の顔に限定されず、さらに非線形であるため、表情が顔の形状や表情同士とどのように相互作用するかを柔軟に制御できる点です。

こう考えてみてください。線形モデルでは、どんな3Dの顔でも0から100までの表情(例えば笑顔やキス)を捉えることができますが、結果は非現実的になる可能性があります。ニューラルモデルでは、学習した表情を0から100までリアルに捉えることができますが、それは学習元の顔に対してのみです。このモデルは、どんな3Dの顔でも0から100までの表情をスムーズに捉えることができます。少し単純化しすぎていますが、要点は伝わると思います。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

コンピューターで生成された顔は、すべて連続して同じような表情をしています。
画像クレジット:ディズニーリサーチ

結果は強力です。異なる形や色合いを持つ1000もの顔を生成し、追加作業なしでそれらすべてを同じ表情でアニメーション化できます。数クリックで召喚できる多様なCGの群衆や、手描きかどうかに関わらずリアルな表情を持つゲームキャラクターが実現できる可能性を想像してみてください。

これは特効薬ではなく、この技術が採用されているさまざまな業界でアーティストやエンジニアが行っている膨大な改善の一部に過ぎません。マーカーレスの顔追跡、より優れた皮膚の変形、リアルな目の動き、その他多数の興味深い領域もこのプロセスの重要な部分です。

Disney Research の論文は、International Conference on 3D Vision で発表されました。全文は、こちらでご覧いただけます。

ディズニー・リサーチのニューラル顔交換技術は、写真のようにリアルな高解像度のビデオを提供できる。

デヴィン・コールドウェイはシアトルを拠点とする作家兼写真家です。

彼の個人ウェブサイトは coldewey.cc です。

バイオを見る