PlayAIは命令に従って音声を複製する

PlayAIは命令に従って音声を複製する

2016年、ハマド・サイード氏と元WhatsAppエンジニアのマフムード・フェルフェル氏は、Mediumの記事を音声で読み上げるChrome拡張機能を開発したら面白いと思いつきました。Mediumの記事を音声で読み上げることができるこの拡張機能は、Product Huntで特集されました。1年後、この拡張機能は大きなビジネスへと成長しました。

「個人や組織がそれぞれのアプリケーション向けにリアルな音声コンテンツを作成できるよう支援することに、より大きなチャンスがあると私たちは考えました」とサイード氏はTechCrunchに語った。「独自のモデルを構築する必要がなくなり、人間並みの音声体験をこれまで以上に迅速に提供できるようになるのです。」

サイード氏とフェルフェル氏の会社であるPlayAI(旧PlayHT)は、「AIの音声インターフェース」を売りにしています。顧客は、あらかじめ定義された多数の音声から選択したり、音声を複製したりすることができ、PlayAIのAPIを使用してテキスト読み上げ機能をアプリに統合できます。

トグルを使用すると、ユーザーは音声のイントネーション、リズム、テナーを調整できます。

PlayAIは、ユーザーがファイルをアップロードして読み上げバージョンを生成できる「プレイグラウンド」と、より洗練された音声ナレーションやボイスオーバーを作成するためのダッシュボードも提供しています。同社は最近、「AIエージェント」分野に参入し、企業における顧客からの電話対応などのタスクを自動化できるツールを提供しています。

プレイAI
PlayAIのエージェント機能。同社の音声合成エンジンをベースに自動化ツールを構築します。画像クレジット: PlayAI

PlayAIの興味深い実験の一つがPlayNoteです。これは、PDF、動画、写真、楽曲などのファイルをポッドキャスト形式の番組、読み上げ要約、1対1の討論、さらには子供向けのストーリーに変換します。GoogleのNotebookLMと同様に、PlayNoteはアップロードされたファイルまたはURLからスクリプトを生成し、それを複数のAIモデルに入力することで、最終製品を作成します。

試してみたところ、結果は悪くなかった。PlayNoteの「ポッドキャスト」設定では、NotebookLMとほぼ同等のクオリティのクリップが作成でき、写真や動画を取り込めるツールのおかげで、魅力的な作品が作れる。最近食べたチキンモレの写真を撮ってみたら、PlayNoteがその料理について5分間のポッドキャストの原稿を書いてくれた。まさに未来の時代を生きている。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

確かに、他のAIツールと同様に、このツールも時折奇妙なアーティファクトや幻覚を生成します。PlayNoteは選択した形式に合わせてファイルを調整しようと最善を尽くしますが、例えば、無味乾燥な法的文書が最良のソース資料になるとは期待しないでください。マスク対OpenAIの訴訟を「寝る前に読む物語」のように表現した例をご覧ください。

PlayNoteのポッドキャスト形式は、PlayAIの最新モデルであるPlayDialogによって実現されています。サイード氏によると、このモデルは会話の「文脈と履歴」を利用して、会話の流れを反映した音声を生成できるとのことです。「会話の歴史的文脈を用いて韻律、感情、ペースを制御することで、PlayDialogは自然な話し方と適切なトーンで会話を配信します」と彼は続けました。

ElevenLabsの強力なライバルであるPlayAIは、安全性に対する自由放任主義的なアプローチを理由に、過去に批判されてきました。同社の音声クローン作成ツールでは、ユーザーが音声をクローン作成するために「必要なすべての権利または同意を有する」ことを示すボックスにチェックを入れる必要がありますが、強制執行の仕組みはありません。私は録音からカマラ・ハリスの声のクローンを作成するのに何の問題もありませんでした。

詐欺やディープフェイクの可能性を考えると、それは懸念すべきことです。

プレイダイアログ
PlayAIのPlayDialogモデルは、比較的自然に聞こえる2日間の「双方向」会話を生成できます。画像クレジット: PlayAI

PlayAIは「性的、不快、人種差別的、または脅迫的なコンテンツ」を自動的に検出してブロックすると主張しています。しかし、私のテストではそうではありませんでした。Harrisクローンを使って、正直言ってここには埋め込めないような音声を生成しましたが、警告メッセージは一度も表示されませんでした。

一方、公開されたコンテンツが満載の PlayNote のコミュニティ ポータルには、「オーラル セックスをする女性」など、露骨なタイトルのファイルも存在する。

サイード氏によると、PlayAIは今回のような、同意なく複製された音声に関する報告に対し、責任のあるユーザーをブロックし、複製された音声を直ちに削除することで対応しているという。また、PlayAIの最高忠実度の音声クローンは20分間の音声サンプルを必要とし、その価格は詐欺師が支払う金額よりも高額(年間49ドル、または月額99ドル)だとサイード氏は主張する。

「PlayAIは複数の倫理的安全策を講じています」とサイード氏は述べた。「例えば、音声が当社の技術を使用して合成されたかどうかを識別するための堅牢なメカニズムを導入しています。不正使用が報告された場合は、速やかにコンテンツの出所を確認し、状況を是正し、さらなる倫理違反を防止するために断固たる措置を講じます。」

それが事実であり、PlayAIが故テクノロジー界の著名人を起用したマーケティングキャンペーンをやめてくれることを心から願っています。PlayAIのモデレーションがしっかりしていなければ、テネシー州で法的に問題視される可能性があります。テネシー州には、プラットフォームがAIをホスティングして人の音声を無許可で録音することを禁じる法律があります。

PlayAIの音声複製AIの学習方法もやや不透明だ。同社は競争上の理由から、モデルのデータの入手元を明らかにしていない。

「PlayAIは主にオープンデータセットを使用していますが、ライセンスデータに加え、自社開発の独自データセットも使用しています」とサイード氏は述べた。「製品のユーザーデータをトレーニングに使用したり、クリエイターのデータをモデルのトレーニングに使用したりすることはありません。私たちのモデルは、何百万時間にも及ぶ実際の人間の音声でトレーニングされており、男性と女性の声を、複数の言語とアクセントで生成しています。」

PlayAIは訴訟を起こされたことはない。しかし、利用規約には、ユーザーが法的脅威にさらされた場合、PlayAIがユーザーのために戦うつもりはないことが示されている。

PlayAIのような音声クローンプラットフォームは、最終的には声優の仕事がAI生成の音声に置き換えられ、俳優はデジタルダブルがどのように使用されるかをほとんど制御できなくなることを懸念する俳優からの批判に直面している。

ハリウッド俳優組合SAG-AFTRAは、オンラインタレントマーケットプレイスのNarrativやReplica Studiosといったスタートアップ企業と、「公正」かつ「倫理的」な音声クローン制作契約を締結した。しかし、これらの提携でさえ、SAG-AFTRAの組合員を含む関係者からの厳しい監視を受けている。

カリフォルニア州の法律では、パフォーマーのデジタル複製(クローン音声など)を利用する企業は、複製の用途を説明し、パフォーマーの弁護士と交渉することが義務付けられています。また、エンターテインメント業界の雇用主は、亡くなったパフォーマーのデジタルクローンを使用する前に、そのパフォーマーの遺産相続人の同意を得ることが義務付けられています。

サイード氏は、PlayAIは同社のプラットフォームを通じて生成されるすべての音声クローンが作成者だけの独占権であることを「保証」していると述べた。「この独占権は、ユーザーの創作権を守るために不可欠です」と彼は付け加えた。

PlayAIにとって、増大する法的負担は一つの逆風です。もう一つの逆風は競争です。Papercup、Deepdub、Acapela、Respeecher、Voice.aiに加え、Amazon、Microsoft、Googleといった大手IT企業がAIによる音声合成や音声クローン作成ツールを提供しています。前述のElevenLabsは、最も著名な音声クローン作成ベンダーの一つであり、評価額30億ドルを超える新たな資金調達を実施していると報じられています。

PlayAIは投資家探しに苦労しているわけではない。Yコンビネーターの支援を受ける同社は今月、500 StartupsとKindred Venturesが共同リードし、Race Capital、500 Global、Soma Capitalも参加した2,100万ドルのシードラウンドを完了した。

「新たに調達した資金は、当社の生成AI音声モデルと音声エージェントプラットフォームへの投資に充てられ、企業が人間品質の音声体験を構築するまでの時間を短縮するために使用されます」とサイード氏は述べ、PlayAIは40人の従業員を増員する予定であると付け加えた。