Speechmatics、音声テキスト変換AIへの包括的なアプローチで6,200万ドルを調達

Speechmatics、音声テキスト変換AIへの包括的なアプローチで6,200万ドルを調達

先週、人の話し方のアクセントをリアルタイムで変換できる技術を開発しているAIスタートアップについて書きました。しかし、もしAIの目標が、どんな話し方をしても、ありのままの自分で理解できるようにし、その過程で多くのAIシステムに内在するバイアスの一部を取り除くことだとしたらどうでしょうか?まさにそのようなニーズが高まっており、アクセントや話し方に関わらず音声をテキストに変換するAIを開発している英国のスタートアップ企業Speechmaticsが、事業拡大のために6,200万ドルの資金調達を発表しました。

米国のサスケハナ・グロース・エクイティがラウンドをリードし、英国の投資家である アルビオンVCIQキャピタルも参加しました。このシリーズBはスピーチマティクスにとって大きな前進となります。同社は2006年に創業者のトニー・ロビンソン博士によってケンブリッジのAI研究からスピンアウトしましたが、それ以前の調達額はわずか1,000万ドル程度でした(アルビオンとIQは、CIAが支援するIn-Q-Telなど、過去の出資者にも含まれています)。

その間に、同社は約 170 社の顧客基盤を構築した。同社は消費者向けまたは企業向けサービスに力を入れる B2B のみを販売しており、完全なリストは公開されていないが、その中には what3words、3Play Media、Veritone、Deloitte UK、Vonage などがあり、これらの企業は従来の意味での文字起こしだけでなく、話し言葉を取り込んで自動字幕作成などのアプリ機能の他の側面を支援したり、より広範なアクセシビリティ機能を強化したりするために、この技術をさまざまに利用している。

現在、同社のエンジンは34の言語で音声をテキストに翻訳できる。同社は今回調達した資金を、精度向上と事業開発に活用し続けるほか、より多くの言語を追加し、自動車のより難しい環境(エンジンの騒音や振動がAIの音声取り込みに影響を与える)でも使用できる音声テキスト変換システムの構築など、さまざまなユースケースを検討していく。

「AIのバイアスに対処するため、私たちは何百万時間ものデータを収集してきました。私たちの目標は、あらゆる声を、複数の言語で理解することです」と、このスタートアップのCEOであるケイティ・ウィグダール氏は述べた(ウィグダール氏はロビンソン氏と共同でCEOを務めていたが、ロビンソン氏は最近、役員職から退いた)。

これは同社の製品への重点と使命に表れており、同社が拡大を目指しているものでもある。

「私たちの言語に対する見方はグローバルです」とウィグダール氏は述べた。「Googleは英語の各バージョンごとに異なるパックを用意しますが、私たちのパックはすべてを理解します。」当初、Googleは顧客に販売するプライベートAPIを通じてのみ技術を提供していましたが、現在ではより多くのユーザー、そして将来的には有料ユーザーを増やすために、開発者が技術を試すためのオープンAPIツールや、ドラッグ&ドロップで操作できるサンプルツールを自社サイトに提供しています。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

そして実際、Speechmatics の課題の 1 つが、人間の話し方をより人間らしく理解できるように AI をトレーニングすることだとすれば、もう 1 つの課題は、音声テキスト変換技術を提供する他の大手プロバイダーに対抗して自社の名声を確立することです。

ウィグダール氏は、同社が現在競合しているのは「ビッグテック」、つまり音声認識エンジンを開発し、その技術をサービスとして第三者に提供しているアマゾン、グーグル、マイクロソフト(現在はニュアンスを傘下に持つ)などの大手企業だと述べた。

しかし、様々な言語が話されている状況を理解する能力を測るテストでは、これらのテストよりも一貫して高いスコアを記録していると同社は述べている。(同社が私に引用したテストの一つは、スタンフォード大学の「音声認識における人種差」研究で、この研究では「アフリカ系アメリカ人の音声認識の全体的な精度は82.8%で、グーグル(68.6%)やアマゾン(68.6%)と比較して高い」と記録されている。これは「音声認識エラーが45%減少したことに相当し、平均的な文章では3語分に相当する」と述べている。また、同社はTCに「競合他社の加重平均」も提供している。 

画像クレジット: Speechmatics (新しいウィンドウで開きます)

しかし、小規模な開発者と、Apple、Google、Microsoft、Amazonといった超大型のテクノロジー企業との間には、この目的のために社内でAIを構築するレベル(または関心)には達していないかもしれない巨大企業が何百社もあることを考えると、確かにここには大きなチャンスがあります。しかし、例えばSpotifyのような企業を例に挙げると、彼らは間違いなくこの目的に興味を持っており、時には競合相手、時には完全な敵対者でもあるこれらの巨大企業に依存することを決して望んでいません。(誤解のないよう明確に述べておくと、Wigdahl氏はSpotifyが顧客であることを私に教えてくれませんでしたが、Speechmaticsに問い合わせる可能性のある規模と状況の典型的な例だと言っていました。)

投資家たちがこの企業への出資に熱心な理由も、これにある。サスケハナは、大手企業に匹敵するだけの実力を持つ企業に資金を提供してきた実績がある(Tik Tokの初期段階の巨額出資者でもある)。

「Speechmaticsチームは、間違いなく異色の技術者集団です」と、サスケハナ・グロース・エクイティのマネージングディレクター、ジョナサン・クラール氏は声明で述べています。「Speechmaticsの調査を始めたのは、ポートフォリオ企業から、Speechmaticsが大手テック企業を含む他のあらゆる選択肢と比べて、精度において何度も勝っているという報告を受けたからです。私たちは、より多くの企業がこの優れた技術に触れ、導入できるよう、Speechmaticsチームと協力する準備を整えています。」クラール氏は今回のラウンドで取締役会に加わります。

実際、テクノロジーがより自然に浸透し、その開発者たちがそのテクノロジーの利用に伴うあらゆる摩擦を軽減する方法を模索するにつれて、音声は大きなチャンスであると同時に、問題点としても浮上しています。つまり、あらゆる種類の音声を「読み取り」、理解するテクノロジーがあれば、あらゆる用途に応用できる可能性があるのです。

「音声は今後ますます主要なヒューマンマシンインターフェースになると私たちは考えています。Speechmaticsは、音声へのディープラーニング適用において業界をリードする企業であり、業界のユースケースや要件全体において、業界をリードする精度と理解力を備えています」と、AlbionVCのパートナーであるロバート・ウィットビー=スミス氏は付け加えました。「2019年のシリーズA投資以来、ここ数年で同社のチームと製品の目覚ましい成長を目の当たりにしてきました。責任ある投資家として、世界中のあらゆる声を理解するという同社の包括的なミッションを支援できることを大変嬉しく思います。」 

イングリッドは、2012 年 2 月から 2025 年 5 月まで、ロンドンを拠点に TechCrunch のライター兼編集者として活躍しました。

TechCrunch以前、イングリッドはpaidContent.orgでスタッフライターとして勤務し、過去にはFinancial Timesなど他の出版物にもフリーランスとして定期的に記事を執筆していました。イングリッドは、モバイル、デジタルメディア、広告、そしてそれらが交差する分野を専門としています。

仕事に関しては、彼女は英語で話すのが一番快適だと感じていますが、ロシア語、スペイン語、フランス語も話せます(能力の高い順に)。

バイオを見る