Deep Nostalgiaを開発するD-IDは、一枚の画像からAIが生成した動画を作成できる。

Deep Nostalgiaを開発するD-IDは、一枚の画像からAIが生成した動画を作成できる。

Deep Nostalgiaなどのプロジェクトに技術を提供してきたイスラエルのAI企業D-IDは、ユーザーが画像1枚とテキスト1つをアップロードするだけで動画を生成できる新しいプラットフォームを立ち上げました。Creative Reality Studioと呼ばれるこの新しいプラットフォームは、企業の研修・教育、社内外のコミュニケーション、製品マーケティング・販売といった分野をターゲットとしています。

このプラットフォームの使い方は非常に簡単です。プレゼンターの画像をアップロードするか、あらかじめ用意されたプレゼンターから1人を選択して、動画作成プロセスを開始できます。有料ユーザーは、デフォルトのプレゼンターよりも表情や手振りが豊かで、より「表現力豊か」なプレミアムプレゼンターにアクセスできます。その後、ユーザーはスクリプトからテキストを入力するか、誰かのスピーチの音声クリップをアップロードします。その後、言語(プラットフォームは119言語に対応)、声、そして明るい、悲しい、興奮した、フレンドリーなどのスタイルを選択できます。

同社のAIベースのアルゴリズムは、これらのパラメータに基づいて動画を生成します。ユーザーは動画をどこにでも配信できます。同社は、このアルゴリズムは動画再生時間の半分の時間でクリップを生成すると主張していますが、当社のテストでは、1分間の動画を生成するのに数分かかりました。これは、プレゼンターの種類や選択した言語によって変わる可能性があります。

「COVID-19のパンデミックにより、世界中でデジタルコンテンツのニーズが加速しています。組織にとって大きな課題となっているのは、教育コンテンツの作成です。文書を読んだり、プレゼンテーションを確認したりするのは、退屈で退屈になりがちです。さらに、俳優を雇ったり、教育ビデオを制作したりするために、数千ドルを費やす必要があります。そこで私たちは、AIを活用してプレゼンターや講師を作成し、人間のプレゼンを再現することで、コンテンツをより魅力的で効果的なものにしています」と、D-IDのCEOであるギル・ペリー氏はTechCrunchのインタビューで語った。

ペリー氏は、CEO から従業員への多言語メッセージから組織のユーザーへの個別の要望まで、このテクノロジーのさまざまな使用例を挙げました。

D-IDは、一般公開前にバグを修正するため、8月中旬にテストスタジオを立ち上げました。あらゆる規模の企業に対応することを主な目標としていますが、プラットフォーム上ではクリエイターからの関心も高まっています。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

不快なディープフェイク動画の作成はリスクを伴います。そのため、イスラエルのD-IDは、罵倒語や人種差別的発言のフィルタリング、有名人の顔の使用を避けるための画像認識などのガードレールを導入しました。動画の台本から性的な発言や不快な言葉を取り除くために、Microsoft AzureのテキストモデレーションAPIを使用しています。D-IDによると、プラットフォームの利用規約では、ユーザーが政治動画を作成することを禁止しています。これらの規則に違反した場合、同社は違反者のアカウントを停止し、動画をライブラリから削除することができます。

D-IDは3月にマッコーリーキャピタルがリードしたシリーズBラウンドで2,500万ドルを調達し、これまでの累計調達額は4,700万ドルに達した。これまで同社は、Modelez、ワーナーブラザーズ、インド発のショートビデオアプリJoshといったクライアントを抱え、APIを使ったコンテンツ制作を他社に委託してきた。Deep Nostalgiaはその好例だ。今回、同社はこのセルフサービスプラットフォームに加え、PowerPointプラグインもリリースすることで、収益性の高い製品を拡充する。このプラグインは、プレゼンテーションにインタラクティブなプレゼンターを追加するため、ユーザーはスライドを読み上げるだけでなく、セルフサービスプラットフォームと同様に、様々なアバター、音声、言語を選択できる。ただし、現時点ではカスタムプレゼンターを提供する機能は提供されていない。

サービス開始時には、ユーザーは14日間の無料トライアルアカウントに登録し、AIが生成した最大5分間の720p動画を作成できます。その後は、月額49ドルをお支払いいただくことで、AIが生成した15分間のフルHD動画、PowerPointプラグイン、メールサポートをご利用いただけます。

D-ID共同創設者のエリラン・クタ、ギル・ペリー、セラ・ブロンドハイム。画像提供:  D-ID

ユーザーは自分の音声クリップをアップロードして音声クローンを作成することもできます。さらに、同社は、ユーザーが自分の映像をアップロードしてAIの表現力を高め、動画内の人物をより正確に模倣できるツールの開発に取り組んでいます。これらの機能はすべて、同社のエンタープライズプランでのみ利用可能です。

同社はAI生成ビデオ分野でRephrase.aiやSoul Machinesといった企業との競争に直面しているが、一枚の画像から高品質のビデオを生成できると主張する企業はほとんどないと主張している。

ペリー氏によると、D-IDは企業研修、コミュニケーション、マーケティングビデオだけにとどまるつもりはないという。リアルタイムのビデオ通話翻訳やクローンプレゼンター(音声を口述する際に、ユーザーの代わりにアバターがビデオに表示される機能)といった機能も実現したいと考えている。

同社はまた、Web3/メタバース開発の主要プレーヤーとなることも検討している。「一枚の画像から動画を生成する専門知識を有しています。メタバース向けのデジタルアバターを作成する方法を検討しています」とペリー氏は述べた。

IvanはTechCrunchで世界の消費者向けテクノロジーの動向をカバーしています。インドを拠点とし、以前はHuffington PostやThe Next Webなどの出版物で勤務していました。

Ivan からの連絡を確認したり連絡を受けたりする場合は、[email protected]にメールを送信するか、Signal の ivan.42 に暗号化されたメッセージを送信してください。

バイオを見る