誰でも他人の声で説得力のある音声を作成できるようになったことで、多くの人が不安を感じており、それは当然のことです。Resemble AIが提案する、生成された音声に透かしを入れるという手法は、この問題を一気に解決するわけではないかもしれませんが、正しい方向への一歩と言えるでしょう。
AI生成音声は、スクリーンリーダーから声優の代役(もちろん許可を得た上で)まで、あらゆる合法的な目的に利用されています。しかし、ほぼあらゆるテクノロジーと同様に、音声生成は悪意のある目的にも転用され、政治家や著名人の偽の発言を生み出す可能性があります。広報担当者や綿密な聞き取りに頼ることなく、本物と偽物を見分ける方法を見つけることが強く望まれています。
透かしとは、画像や音声に、その出所を示す識別可能なパターンを刻み込む技術です。画像にロゴなど、目に見えて目立つ透かしは見たことがあると思いますが、必ずしも目立つとは限りません。
画像では、隠された透かしによってピクセル単位でパターンが隠され、人間の目には画像が改変されていないように見えても、コンピュータには識別可能な状態になることがあります。音声も同様です。時折聞こえる静かな音は、情報をエンコードしたものであっても、一般のリスナーには聞き取れない可能性があります。
こうした繊細な透かしの問題は、メディアに少しでも手を加えると消えてしまうことです。画像のサイズを変更すると?ピクセルパーフェクトなコードが消えてしまいます。音声をストリーミング用にエンコードすると?秘密のトーンは圧縮され、完全に消えてしまいます。
Resemble AIは、微調整された音声モデルを用いて、通常は人間の声で生成される吹き替え、オーディオブック、その他のメディアの制作を目指す、生成AIスタートアップの新たな一群です。しかし、俳優が何時間もかけて提供した音声で学習したであろうこのようなモデルが悪意のある人物の手に渡れば、これらの企業はPR上の大惨事に見舞われ、深刻な責任を問われる可能性があります。そのため、録音を可能な限りリアルにし、かつAIによって生成されたことが容易に検証できる方法を見つけることは、彼らにとって非常に重要な課題となっています。
VALL-Eの急ごしらえの音声ディープフェイクは、まだ心配していないなら心配するべきだ。
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日
PerTh は、この目的のために Resemble が提案した透かし入れプロセスであり、「知覚」と「閾値」のぎこちない組み合わせです。
「機械学習モデルを用いて、生成した音声コンテンツにデータパケットを埋め込み、後からそのデータを復元するセキュリティレイヤーを開発しました」と、同社はこの技術を説明するブログ記事に記しています。「このデータは音声情報と密接に結びついており、目に見えないため、削除が困難であり、特定のクリップがResembleによって生成されたものであるかどうかを確認する手段となります。重要なのは、この『ウォーターマーク』技術は、再生速度の調整、MP3などの圧縮形式への変換など、様々な音声操作にも耐性があることです。」
これは、人間の音声処理における奇妙な性質を利用したもので、可聴性の高い音は、近くにある振幅の小さい音を本質的に「覆い隠す」性質を持っています。例えば、誰かが笑って5,000Hz、8,000Hz、9,200Hzの周波数にピークが生じた場合、数ヘルツ以内で同時に発生する構造化された音を差し込むことで、リスナーにはほぼ聞こえなくなります。しかも、正しく行えば、音声の重要な部分に非常に近いため、除去しても効果が薄れます。
図は次のようになります。

直感的に理解できますが、課題は間違いなく、候補となる波形セクションを特定し、識別情報を含む適切な、しかし聞き取れない音声トーンを自動的に生成できる機械学習モデルを構築することでした。そして、そのプロセスを逆順に実行しながら、上記のような一般的な音声操作に対して堅牢性を維持する必要がありました。
提供された2つの例を以下に示します。どちらに透かしが入っているか、見てみましょう。ここにマウスを移動すると、ステータスバーに答えが表示されます。
違いは分かりません。波形をかなり細かく調べても、明らかな異常は見つかりませんでした。最近はスペクトラムアナライザーを使いこなせていないので、そこまで詳しく調べることはできませんが、もしかしたらそこに何かが見えるかもしれません。いずれにせよ、Resembleによる生成を示すデータが、これらのクリップの1つに多かれ少なかれ不可逆的にエンコードされているという彼らの主張であれば、それは成功と言えるでしょう。
PerThはまもなくResembleの全顧客に展開されますが、現時点ではResembleが生成した音声のみをマーク・検出できるという点を明確にしておきます。しかし、もしResembleがPerThを実装したのであれば、他社もおそらく同様のことをするでしょう。そして、これらのエンジンは近いうちに音声生成モデル自体と密接に連携する可能性が高いでしょう。悪意のある行為者は常にこのような回避策を見つけますが、障壁を設けることで、そうした行為をある程度抑制できるはずです。
しかし、音声はこの点で特殊であり、同様のテクニックはテキストや画像には通用しません。そのため、これらの分野では、しばらくの間、不気味の谷現象に陥り続けることを覚悟してください。
デヴィン・コールドウェイはシアトルを拠点とする作家兼写真家です。
彼の個人ウェブサイトは coldewey.cc です。
バイオを見る