Voicemod の CEO 兼共同創設者の Jamie Bosch 氏が新たな資金調達ラウンドについて話すために電話に出たとき、私たちが最初に尋ねる質問は、普段は聞き慣れたものではないが、急速に近づいている生成 AI の未来においては、私たちの質問が標準になるかもしれない。「これはあなたの本当の声ですか?」
ボッシュのスタートアップであるVoicemodは、約10年にわたりオーディオエフェクトの開発に取り組んでおり、デジタル信号処理(DSP)分野に注力してきました。当初は、ゲーマーのボイスチャットに彩りを添える楽しい「サウンド絵文字」エフェクトやリアクションの作成に注力していました。そして、今のところはゲーマーが主なユーザーベースとなっています。しかし、オーディオ分野はAIの発展によって活況を呈しており、Voicemodのチームは、AIが全く新しいユースケースを生み出し、ツールのユーザー数を大幅に増やすことを期待しています。
DSP技術は人の(本物の)声にエフェクトをかける技術でしたが、人工知能(AI)の発展により、Voicemodのようなスタートアップ企業は、完全に合成された(非現実的な)声を作成するツールを提供できるようになっています。さらに、ユーザーがこれらの声をリアルタイムで「身に着ける」ことも可能になり、自分の声ではない声で話すことができるようになります。SnapchatのレンズやTikTokで話題のティーンエイジフィルター、Refaceのセレブ顔交換機能の音声版と考えてみてください。
AI音声は、他人の声(実声)に音声変換することさえ可能にします。天気の話や雑談をするだけではありません。いわゆる「歌声変換」にも使えます。つまり、他人の声で歌えるようになるのです。例えば、フレディ・マーキュリーの声で「ボヘミアン・ラプソディ」を歌えば、カラオケの腕前が格段に上がります。十分な訓練済みAIモデル(とマイク)があれば、マーキュリー、メイ、テイラーを切り替えて、本格的なオペラ風に演出することも可能です。マンマ・ミーア!
人工知能はこれらすべてを可能にする。たとえ、法的および倫理的な問題が、いまだ固定されたアイデンティティに大きく依存する世界にリアルタイムの音声変換を急いで導入することについて、一考の余地を残すとしても。(パスワードとして「固有の声紋」を録音するよう顧客に強制している銀行は、間違いなく目を覚まして耳を傾けるべきだろう。)
Voicemodは昨年、別のオーディオエフェクトスタートアップであるVoctro Labsを買収しました。Boschによると、Voctro Labsの技術を自社の技術と融合させ、より強力なハイブリッドプラットフォームの構築に取り組んでいるとのことです。この統合により、Voicemodは既に提供内容を拡充しており、昨年12月には、生成AIを用いて歌詞をボーカルに変換できるテキスト・トゥ・ソング機能をリリースしました。さらに、前述のSing to Sing機能など、さらに多くの機能を開発中とのことです。
Voctroの技術は、ミュージシャンのホリー・ハーンドンのクローン音声の開発にも使われていたため、ご存知の方も多いかもしれません。この技術は昨年話題になったTEDトークで紹介され、彼女のAI音声が別のミュージシャン(Pher)の生の声とリアルタイムでデュエットする様子が見られました。まだご覧になっていない方のために説明すると、視覚と聴覚が織りなす壮大なスペクタクルであると同時に、説明するのも一苦労です。これは、Voicemodがあなたの身近なキーボードにどんな機能を搭載しようとしているのか、その予感を抱かせるものでもあります。
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日
「生成AI技術を活用した製品や、人々が自己表現できる方法を、確実に増やしていくつもりです」とボッシュ氏は語る。「Voctro Labsの技術はすべて音楽関連ではありませんが、テキストから歌を生成する技術から、リアルタイムで歌を歌う技術まで、歌唱関連の技術は数多くあります。ですから、今後、多くの新しいプロジェクトと新製品が予定されています。」
「音声合成AIリアルタイム技術を強化していきます。基本的に、私たちの技術と彼らの技術を融合させるからです。基本的には、私たちの技術よりも優れたハイブリッド技術、あるいは両者を組み合わせた技術を開発しています。(つまり、彼らの音声合成技術を)私たちのDSP技術と組み合わせることで、オートチューンが可能になります。つまり、アーティストの声質や音色を最適化できるようになる可能性があるのです。これは本当に、本当に興味深い技術になるでしょう。」
同社は、消費者やクリエイター向けのオーディオツールを直販するだけでなく、ゲームやアプリからハードウェアに至るまで、サードパーティが自社製品に統合できるSDKやAPIも提供しています。つまり、ゲーマーとクリエイターのエコシステム全体に自社の技術を普及させ、需要がそれを見つけられるようにする体制を整えているのです。
生成 AI によるオーディオ分野の破壊的変化は、もちろん、他の分野で起こっている開発動向を反映しています (正確には、遊園地の「クレイジーミラー」のような方法で)。視覚面では、グラフィックスやイラストレーションが、ディープラーニングとプロンプトベースの画像生成インターフェース (DALL-E や Stable Diffusion など) の登場によって変化しています。また、書き言葉についても、ChatGPT などの生成 AI チャットボットを支える大規模言語モデルによって、歌詞やエッセイ全体をオンデマンドで生成できます。そして、音楽作曲の場合も同様です。Google は最近、プロンプトベースの生成 AI 作曲ツールを披露しましたが、これは、あなたが説明した音楽の雰囲気に合ったアレンジメントを作成できるようです (ただし、Google はその特定の生成 AI モデルをリリースしないとしていますが、他の誰かが必ずリリースするでしょう)。
AIが、人間が創造できるものの限界を覆しつつあることは明らかです。そして、自由、つまりオープンコンセプトと同様に、これはスリリングであると同時に恐怖でもあります。なぜなら、AIを使って何をするかが重要だからです。
これからの数年間は、人々がこのような強力な AI ツールを使って何を行うかが注目されるでしょう。

Voicemodは、現実を歪める未来と様々なユースケースにおいて、クリエイターが生き残り、成功するためのツールボックスを構築することで、この波に乗ろうとしています。つまり、ソーシャルメタバース(未来を見据えた視点)における音響アイデンティティや音声アバターといった観点から語られているだけでなく、仕事のZoom通話で最高のサウンドを実現するためのサポートも提供しているのです。いわば、一種のオーディオメイクアップです。必要に応じて適用してください。
「今や誰もが突然クリエイターになれる時代が来る」と、ボッシュ氏は生成AIの恩恵について予測する。「基本的に、スキルセットがなくても、あるいはオーディオの作り方を学んだ経験がなくても、誰でも音楽、歌を実際に作れるようになる。そして、これは最終的にはおそらく声にさえ進化するだろう。つまり、声を創り出す能力だ」
これは、TikTokやYouTube Shorts、Instagramといったプラットフォームで、本当にバイラルになる可能性を秘めています。そして最終的には、例えばカラオケのようなものに進化するかもしれません。ゲーム機などに搭載されて、人々がエンターテイメントとして使えるようになるかもしれません。そして、私たちが考えているように技術がどんどん進歩すれば、音楽を作りたい人にとってプロフェッショナルなツールになる可能性もあります。あるいは、映画やゲームのキャラクターの声を作りたい人にとっても使えるかもしれません。
「私たちはユーザー生成コンテンツに強い信念を持っており、ユーザーがサウンドや声を作り始められるツールを開発しています。そして、ユーザーがそれらのサウンドを制作するためのテクノロジーを、その手に委ねていきます。そして将来的には、願わくば、彼らがプロレベルにまで到達することを願っています。」
そのため、現時点では、スタートアップ企業が音声全体を合成するには、依然としてサウンドエンジニアとデザイナーのチームが必要ですが、ボッシュ氏は、生成 AI によってその力が個人の手に渡り、すぐに、つまり「近い将来」に実現すると示唆しています。
「今はあらゆるものがプロンプトを通じて行われるという波の中にいますが、私たちがプロンプトを使うようになるかどうかは分かりません。それが今後の流れになるのか、それともAI技術を組み込んだツールが増え、ユーザーエクスペリエンスが向上して物事がずっと楽になるのかは分かりません」と彼は付け加えた。「しかし、生成AIによって、観客だけでなく経営の段階においても、誰もが突然クリエイターになれるという可能性が確実に見えてきています。これは本当に興味深いことだと思います。」
AI音声の誕生は、サウンドエンジニアやデザイナーの雇用見通しにとって、それほど驚くべきニュースには聞こえないかもしれない(もっとも、技術の進歩によって新たな要件が生まれ、彼らの専門知識が求められる分野が変化する可能性はあるが)。しかしボッシュ氏は、少なくとも声優は依然として重要な役割、つまりAIに感情を伝える役割を担うと考えている。ロボットの声は、ピッチやイントネーション、さらには感情を正確に表現するのが得意ではないからだ。つまり、魂のないクローン音声と言えるだろう。(ニック・ケイヴの言葉を借りれば、AI音声には「自身の血、自身の闘い、自身の苦しみ」が欠けている。つまり、人間らしさが欠けているのだ。)
「こういう声のサンプルには、必ず人間的な要素が必要だと思います」とボッシュは示唆する。「たとえ有名人の最高の声でも、本当に重要なのは印象です。言葉の抑揚やリズム、トーンは、やはり人間が作り出さなければなりません。だから、普通に話せば有名人のように聞こえる、というだけでなく、少し演技も必要です。つまり…表現における人間的な要素が鍵だと思います。」
生成型 AI は、適切な人間のデータセットを使用して感情を表現することも学習できるのではないでしょうか。さらに、その模倣をさらに強化して、オンデマンドで私たちを笑わせたり、泣かせたり、愛したり、憎んだりすることもできるようになるのではないでしょうか。
「ええ。まあ、どうなるかは分かりませんが」とボッシュは答えた。「よく分かりません。今のところ、私にとってAIは人間が使うツールです。でも、これが今後どう進化していくのかは分かりません。」

Voicemodは、新たな資金調達により、今後待ち受けるあらゆる音響の狂気に備えている。2014年に設立されたこのスタートアップは、長年にわたりツールのプロ版を通じて収益を上げてきた。主力製品であるVoicemod for Desktopは、これまでに4000万回以上ダウンロードされ、Boschによると月間アクティブユーザー数は330万人に上る。しかし、2020年夏の800万ドルのシリーズAに続き、つい先日、1450万ドルの事業拡大資金調達を 完了した。マドリードに拠点を置くKfundの成長ファンドであるLeadwindが、このラウンドをリードし、Minifund(元Discord CMOのEros Resmini氏)とBitkraft Venturesが参加した。
「ジェネレーティブAIがあらゆるクリエイティブ業界、特にオーディオ業界にどのような可能性をもたらすのか、私たちは非常に期待しています。特に、クリエイティブな人々が既に行っている仕事の強化や拡張に関しては、その可能性は計り知れません」と、Kfundのパートナーであるジェイミー・ノボア氏はTechCrunchに語った。「ここ数ヶ月、ジェネレーティブAI全般、特にオーディオ業界では爆発的な成長が見られましたが、これはまだ始まったばかりの現象だと考えています。」
市場に投入されている多くの優れたテクノロジーには、具体的かつスケーラブルなビジネスモデルが欠けています。Voicemodは、何百万人もの人々が毎日利用し、大きな収益を生み出す製品を開発することで、他社との差別化を図っています。ジェイミーとVoicemodチームのメンバーが現在開発中の製品、そして今後の展開に、私たちは非常に期待しています。
Voicemodは、追加資金はリアルタイムAI音声認識機能の開発を強化し、デジタル空間で音声による自己表現を支援するツールを求めているZ世代、ゲーマー、コンテンツクリエーター、あらゆるスキルレベルの専門家に向けた提案を強化するために使用すると述べている。
ボッシュ氏によると、現在資金調達を拡大している理由の一つは、Voctro Labsの買収に関係しているという。さらに、生成AIツールにおけるカンブリア爆発のきっかけとなる機会を最大限に活用するためだと同氏は述べている。
「私たちはAIにおける大きな革命の真っ只中にいます」と彼は言います。「技術開発だけでなく、ユーザーに技術を届けるためにも、十分な資金を確保したいと考えています。私たちの競争上の優位性の一つは、既に市場と牽引力があり、基本的にユーザーに技術を提供できることにあると考えています。そして、市場の状況も考慮し、これらすべてを整備するための十分な資金を確保したいと考えています。ですから、私たちは主に次世代AI技術を開発し、ユーザーに提供すること、そしてユーザーがコンテンツを作成するための制作ツールを構築することに注力していきます。」
最初の新ツールは来月、Voicemodのデスクトップ版がmacOS(現在はPCのみ)向けにリリースされる予定です。目標は、あらゆるデバイスに対応するマルチプラットフォーム製品への進化です。「クリエーションツールのモバイルアプリも開発中で、来四半期の初めにはリリースできる予定です。そして、もちろん、今後もさらに何かを追加していく予定です」とボッシュ氏は付け加えました。
同氏はまた、このスタートアップは、プラットフォームがAI生成音声を一般の場で見つけられるようにするための透かし技術を開発しており、今年の第2四半期にリリースしたいと考えていると語った。
このような機能は、自分が別の誰かのように聞こえる音声変換ツールに対して人間が考え出すであろうあらゆる悪質な使用例(詐欺、不正行為、操作、乱用、いじめ、荒らしなど)に対抗するための重要なツールとなる可能性が高い。
「これは音声に透かしを入れるアルゴリズムです」とボッシュ氏は説明する。 「モデレーションは、音声が使用されるプラットフォーム、つまり空間によって大きく異なるため複雑です。ですから、私たちはチャンネルがモデレーションを行うべきだと考えています。そこで私たちが行っているのは、この透かしシステムを提供することで、チャンネルが音声が合成音声で作成されたものか、実際の音声で作成されたものかを見分けられるようにすることです。」
「あらゆる新しいテクノロジーは、良いことにも悪いことにも使われる可能性があります」と彼は付け加えた。「ですから、私たちは当然のことながら、テクノロジーの悪用をよりコントロールするために、いくつかのテクノロジーやツールを導入しています。」
学習データのライセンスに関しては、知的財産権の問題は現状グレーゾーンです。これは、AI(ましてや生成AI)の発展に法律が追いついていないためです。つまり、この分野で事業を展開するスタートアップ企業は、やりたい放題の法的自由を最大限に活用するか(そして、高額な代償がすぐに降りかからないことを祈るか)、それともより慎重に、思慮深く行動するかを検討する必要があります。(この分野のスタートアップ企業には、Voice AI、Koe、ElevenLabsなどが挙げられます。)
ボッシュ氏によると、Voicemodは後者のアプローチを採用しているという。つまり、(有償の)声優を起用してデータセットを構築し、AIモデルの学習と改良に取り組んでいるということだ。オリジナルコンテンツを活用したい場合は、チームが知的財産権プロバイダーと交渉し、どのようなライセンス条件を受け入れられるかを検討するという。(生成型AIブームは、知的財産権弁護士にとって非常に刺激的な時代であることは明らかだ。)
「私たちは基本的にこの分野で先駆者です」と彼は付け加えた。「多くのことがまだ法律で定められていないので、基本的には自分たちの価値観を貫き、正しいことをしようと努めてきました。それがデータに関する私たちのアプローチです。でも、そうですね、全くその通りです。今のところ、あなたの声に『法的権利』は付与されていません。私たちが自分の指紋を所有している。あなたが、自分の声の指紋が何であれ、それを所有しているわけではない。今のところは。」
「少しSFっぽい話に聞こえるかもしれないけど、もしかしたら将来、私たちは自分の声に関連した何かを『所有』するようになるかもしれない。」
ちなみに、ボッシュ氏は実際の声で話してくれました。同社のリアルタイム音声変換技術はまだモバイルでは機能しませんが、それも近々対応予定だと彼は言っています。さあ、シートベルトを締めてください。合成音声の未来は、怒涛の疾走感に満ちた体験になるでしょう。
ChatGPTの盛り上がりが最高潮に達する中、Neevaは生成AI検索エンジンを国際的に展開