本物と見間違えるほどの合成音声を生成するツールを開発するWellSaid Labsは、事業拡大のためシリーズAで1,000万ドルを調達した。同社が自社開発した音声合成エンジンは、リアルタイムよりも高速に動作し、短いスニペットから数時間に及ぶ読み上げまで、ほぼあらゆる長さの自然な音声クリップを生成する。
WellSaidは2019年にアレンAI研究所のインキュベーターから誕生し、トレーニングやマーケティングコンテンツなどの一般的なビジネス用途で、それほどロボットっぽく聞こえない合成音声を作成することを目標としていた。
同社はまず、Googleと学術研究者が開発した音声エンジンTacotronをベースにソリューションを開発しました。しかしすぐに、より効率的で、より説得力のある音声を生成し、任意の長さのクリップを生成できる独自のエンジンを開発しました。音声エンジンは、数文話しただけでつまずき、意味不明な音声になったり、語調が崩れたりすることがよくありますが、WellSaidのエンジンはメアリー・シェリーの『フランケンシュタイン』を全く問題なく読み上げました。
音声の質は高く、リスナーからは人間並み、あるいは人間と同等と評価されました。これは、数語以上話す通常のバーチャルアシスタントでは到底言えないことです。それだけでなく、音声は実時間よりもかなり速く生成されました。他の高品質な音声アシスタントは実時間の10分の1以下で生成されることが多かったのに対し、WellSaidでは3分間の音声生成に1分、Tacotronでは30分以上かかるのです。
最後に、このシステムでは、信頼できる企業の広報担当者やナレーターなど、既存の声優をベースに新しい「ボイスアバター」を作成できます。CEOのマット・ホッキング氏によると、当初は声の癖や声質をモデル化するには約20時間の音声が必要でしたが、今ではわずか2時間で作成できるとのことです。
同社は現在、完全にビジネスに特化しており、ユーザーの声をデジタル化してアバターにするといったユーザー向けアプリは存在しません。それに伴うリスクがあり、現実的なビジネスモデルもないため、現時点では検討されていません。
しかし、そのような現実的な声は障害者にとって依然として大きな助けとなるかもしれないが、ホッキング氏はそれを認めつつも、障害者たちがまだ取り組む準備ができていないことを認めている。
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日

「私たちは、非言語コミュニケーションを行う人々や非営利団体などがこの技術の恩恵を受けられるよう、この技術へのアクセスを拡大することに尽力しています」と彼は述べた。
同社は、最初の市場である企業研修ビデオから、マーケティング、長文コピー、豊富なテキストとアプリ体験を備えたインタラクティブ製品へと事業を拡大してきました。これらのアバターの基盤となっている才能が、声のデジタル版を作ることへの貢献に対して、適切な報酬を得ていることを期待したいところです。
応募超過となった1,000万ドルの資金調達ラウンドはFUSEが主導し、リピート投資家のVoyager、Qualcomm Ventures LLC、GoodFriendsも参加しました。いずれも同社の製品と事業の成長に感銘を受けたものと思われます。合成音声はいくつかの人気ユースケースで活用されてきましたが、コンテンツはそれほど大きな市場ではありませんでした。そのため、成長の余地は十分にあります。同社はこの資金を、製品ラインナップの拡充とそれに伴うチームの強化に投資する予定です。
非技術系リーダーが理解すべき機械学習の5つの基本事項
デヴィン・コールドウェイはシアトルを拠点とする作家兼写真家です。
彼の個人ウェブサイトは coldewey.cc です。
バイオを見る