合成音声スタートアップのMurfは、あらゆる規模のコンテンツクリエイターに声を提供する

合成音声スタートアップのMurfは、あらゆる規模のコンテンツクリエイターに声を提供する

合成音声技術のスタートアップ企業Murfは、あらゆる規模のコンテンツクリエイターに文字通り「声」を提供します。現在、20言語で120種類以上の人間と同等のAI音声ライブラリを保有するMurfは本日、Matrix Partnersが主導するシリーズAラウンドで1,000万ドルを調達したことを発表しました。このラウンドには、Elevation Capitalのリピーター投資家に加え、Ola創業者のアンキット・バティ氏、Disney Streamingの製品担当SVP、Mad Street Dap創業者のアシュウィニ・アソカン氏、Drip Capital創業者のプシュカル・ムケワール氏といった著名なエンジェル投資家が参加しました。

2020年10月、インド工科大学カラグプル校の同級生であるスネハ・ロイ、アンクル・エドキー、ディヴィヤンシュ・パンディによって設立されたMurfは、前回の資金調達でエレベーション・キャピタルとエンジェル投資家から150万ドルを調達しました。エンジェル投資家は、人材採用、製品イノベーション、ユーザー獲得への投資を支援しました。Murfによると、シードラウンド以降、ARRは26倍に成長し、様々な話し方やトーンで100万件以上のナレーションプロジェクトを制作しました。

Murf のテクノロジーがどのように使用されているかの例として、AI アート モデル、ディープフェイク プログラム、Murf スタジオの AI 音声を使用して映画全体を制作した技術起業家兼アーティスト、Murf の音声コレクションを使用してテレビ シリーズを制作したエンターテイメント アニメーション エージェンシー、Murf の AI 音声を使用してファンタジー小説のオーディオブックを制作した作家、Murf の AI 音声を使用してラップ ビデオを作成した YouTube インフルエンサーなどが挙げられます。

マーフの創設者
Murfの創設者たち。画像提供: Murf

MurfのCEOであるエドキー氏は、TechCrunchに対し、Murfの創業チームは過去にそれぞれ異なる分野で活動していたものの、高品質なナレーション制作において共通の課題に直面したと語った。これには、製品デモの制作と更新、ラジオや動画広告の収録などが含まれる。彼はさらに、パンデミックによって「マルチメディア制作が活発化し、スケーラブルなオーディオコンテンツの需要が急速に高まった」と付け加えた。

Murfのクライアントは、広告、オーディオブック、解説動画、eラーニングなど、様々な用途でMurfを活用しています。SaaSプラットフォームであるMurf.aiは、あらゆる商業目的で高品質で自然な音声のナレーションを簡単に作成できるように開発されました。同社のクライアントは、個人のコンテンツクリエイターから中小企業、大企業まで多岐にわたり、教育、企業、ヘルスケア、メディア・エンターテイメント、マーケティング、広告、ポッドキャスト、カスタマーサポートなど、幅広い分野で事業を展開しています。 

エドキー氏はTechCrunchに対し、コンテンツ制作者やマーケティングチームはナレーションを自ら録音するか、プロセス全体を外注することが多いが、どちらも「面倒で費用も時間もかかる」と語った。一方、Murfを使えば、録音機材を購入したり声優を雇ったりすることなく、「人間のような」ナレーションを生成できる。 

同社はまた、テキスト読み上げ(TTS)の限界をなくしたいと考えています。「TTSはかなり前から存在していましたが、音声品質の限界によりその利用は制限されてきました。AIとディープラーニングの近年の進歩を活用することで、人間の自然な韻律と発音を忠実に再現した高忠実度の合成音声の作成を可能にしています。」

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

Murfのプラットフォームには、AIを活用したSaaSツールが含まれており、ユーザーは複雑で高価な録音機器を購入したり、声優を雇ったりすることなく、動画やプレゼンテーションなどで「人間らしい」音声を生成できます。コンテンツ制作者はオンライン音声録音ブースを利用し、様々な話し方を試すことができます。Murfは、アフリカ系アメリカ人、イギリス人、オーストラリア人など、様々なアクセントの音声を収録することで、従来のテキスト読み上げプラットフォームにおける多様性のギャップを埋めることを目指しています。 

MURFの創業者が参考にした市場レポートによると、世界のテキスト音声市場は2028年までに70億6000万ドルに達し、年平均成長率14.6%で成長すると予想されています。一方、ナレーションおよび吹き替え市場は2027年までに年間80億ドルの規模に達すると予測されています。

テキスト読み上げ機能は長年存在していましたが、品質の限界から、主に音声アシスタントやチャットボットで使用されていました。しかし、近年のAIとディープラーニングの発展により、人間の話し言葉の韻律と発音を持つ合成音声の作成が可能になりました。MurfのAIエンジンは、実際の人間の話し言葉で何時間もトレーニングされており、Murf Studiosは20言語に対応可能な120種類以上の人間に似たAI音声を提供しています。Murfはまた、アフリカ系アメリカ人英語、イギリス英語、オーストラリア英語など、外国人のアクセントにも対応できるよう、声優と提携し、より多様なアクセントの音声提供にも取り組んでいます。

MurfのAI搭載テキスト読み上げ機能は、文脈情報から学習し、適切な応答を返すことができます。創設者たちは、Murfを「オールインワンの音声ソリューション」と表現しており、ユーザーが画像、動画、BGMを追加できる機能も備えています。また、国際音声記号(IPA)を用いた発音機能や、ピッチ、間、強調、速度を変更できる音声カスタマイズ機能も備えています。

Murfはサービスのサブスクリプションプランを通じて収益を得ています。2021年1月にベータテストを終了し、過去18ヶ月でARR(年間経常収益)が22倍に成長し、これまでに100万件以上のボイスオーバープロジェクトを合成しました。

エドキー氏によると、Murfの主な競合相手は、Google、Amazon、Polly、Microsoftといった大手テクノロジー企業やクラウド企業で、市場をリードするテキスト読み上げプラットフォームを擁している。Murfは、自然な音声と多様なアクセントやスタイルに対応したAI音声で他社と差別化を図っている。 

「当社のプラットフォームは、単なるテキスト読み上げツールにとどまらず、画像、動画、プレゼンテーション、ナレーション、BGMを追加し、それらを同期させることで魅力的なコンテンツを作成できる機能を提供しています」とエドキー氏は述べています。MurfのAI搭載TTSは、大量のコンテキスト情報を学習して、文脈に沿った音声を生成することもできます。例えば、数値、通貨、パーセンテージ、住所、日付、時刻といった一般的に使用されるエンティティ形式を認識するコンテキスト認識機能が組み込まれており、それらのランダム性を低減し、事前に定義された標準に近づけることができます、とエドキー氏は付け加えました。 

Elevation Capitalの共同マネージングパートナーであるムクル・アローラ氏は、用意された声明の中で次のように述べています。「AIを活用したリアルなナレーションは、テキスト読み上げ市場における新たなフロンティアです。優秀な創業チームと独自のIPを擁するMurfは、この分野でリーダーシップを発揮する絶好の態勢にあります。彼らの実行力とテクノロジー重視の姿勢は、これまでの堅実な牽引力と成長に表れています。Murfとのパートナーシップをさらに強化できることを大変嬉しく思います。」

2022年第3四半期のベンチャーキャピタルへの5つの質問