D-IDは、写真をカスタムフォトリアリスティックビデオに変換する方法「Speaking Portrait」をリリースしました。

D-IDは、写真をカスタムフォトリアリスティックビデオに変換する方法「Speaking Portrait」をリリースしました。

古典的な家族写真を生き生きとした動くポートレートに変えるセンセーショナルな MyHeritage アプリの技術を開発した会社が、その技術の新たな実装で戻ってきました。静止写真を超リアルなビデオに変換し、何でも伝えることができます。

D-ID の Speaking Portraits は、過去 2 年間で話題となった悪名高い「ディープフェイク」に似ているように見えるかもしれませんが、基盤となる技術は実際にはかなり異なり、基本的な機能についてはトレーニングは必要ありません。

D-IDは、実際には2018年のTechCrunch Battlefieldで全く異なる焦点(顔認識技術のスクランブル)を携えてデビューし、TechCrunch Disrupt 2021で新しいSpeaking Portraits製品をライブでデビューさせました。同社は、新しい技術を使用してさまざまな感情を表現できる多言語のテレビキャスターを作成すること、顧客サポートのやり取りのための仮想チャットボットペルソナを作成すること、専門能力開発用のトレーニングコースを開発すること、インタラクティブな会話型ビデオ広告キオスクを作成することなど、多数のユースケースを披露しました。

この新製品と、D-IDとMyHeritageの提携(MyHeritageのアプリはAppleのApp Storeチャートで一時トップを独占した)は、明らかに同社の当初の焦点から大きく逸脱している。昨年5月まで、D-IDは以前のアプローチに基づいて資金調達を行っていたが、MyHeritageとの提携は2月に開始され、その後GoodTrustとも同様の契約を結び、さらにワーナー・ブラザースとの華々しい提携では、ヒュー・ジャックマン主演の映画『レミニセンス』でファンが予告編に自分自身を挿入できるという内容の作品を発表した。

D-IDの方向転換は、他の多くの企業よりも劇的に見えるかもしれないが、技術的な観点から見ると、写真に命を吹き込むという同社の新たな取り組みは、匿名化ソフトウェアとそれほどかけ離れていない。D-IDのCEO兼共同創業者であるギル・ペリー氏は、同社がこの新たな方向性を選んだのは、この種のアプリケーションには非常に大きな潜在的市場があることが明らかだったからだと語った。

ワーナー・ブラザースのような大手クライアントや、比較的無名のブランドによるApp Storeを席巻するアプリの存在は、この評価を裏付けているように思われます。しかし、「Speaking Portraits」は、大規模クライアントから小規模クライアントまで幅広いクライアントを対象としており、誰でも元画像と録音された音声または入力テキストからフルHD動画を生成できます。D-IDは、この製品を英語、スペイン語、日本語でリリースしますが、顧客からの要望に応じて、将来的には他の言語にも対応する予定です。

D-IDは、スピーキングポートレートを2つの基本的なカテゴリーで提供しています。「シングルポートレート」は、静止画1枚だけで作成できます。このポートレートでは、頭部はアニメーション化されますが、その他の部分は静止したままです。このポートレートは、写真に既に存在する背景のみで作成できます。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

もう少しリアルな雰囲気を求めるなら、「トレーニング済みキャラクター」オプションがあります。これは、会社が提供するガイドラインに沿って、希望するキャラクターの10分間のトレーニング動画を提出するものです。このオプションの利点は、背景をカスタマイズして変更できる点と、キャラクターの体と手にはプリセットのアニメーションオプションが用意されていることです。

トレーニングされたキャラクター手法を使用して生成された、Speaking Portrait ニュースキャスターの例を以下で確認して、どれほどリアルであるかを確認してください。

ペリー氏が本日Disruptでライブで披露したデモは、幼少期の自身の静止画から作成されました。この静止画は、いわば人間の操り人形師によって表情にマッピングされ、さらに、現在のギル氏と幼少期のギル氏が対話する中で、スピーキングポートレート版のギル氏が最終的に発した台詞も音声化されました。以下の動画で、話し手の表情がアニメーション写真に反映されている様子をご覧ください。

たった一枚の写真から、どんなセリフでも説得力のある、まるで写真のようにリアルな動画を作成できるというのは、確かに少々恐ろしい話です。ディープフェイクの倫理性については既に様々な議論が交わされており、AIがリアルでありながらも人工的な結果を生成したかどうかを識別しようとする業界の取り組みも見られます。

ペリー氏はDisruptで、D-IDは「悪用ではなく善用されることを確実にしたい」と述べ、その実現に向けて、パートナー企業と共に10月末に誓約書を発表し、Speaking Portraitsのような技術の利用における「透明性と同意」へのコミットメントを概説する予定だと述べた。この誓約の目的は、「ユーザーが見ているものに混乱をきたさず、関係者が同意を与えること」を確実にすることだ。

D-ID は、この種の技術の悪用に関する利用規約と公的な立場で保証を表明したいと考えているが、ペリー氏は「単独ではできない」と述べ、悪用を避ける取り組みでエコシステムの他の関係者に協力を呼びかけている。

宇宙、科学、医療技術を専門とするライター。以前は自動車とモビリティ技術を担当し、AppleとShopifyに勤務。

バイオを見る