AssemblyAI、音声の書き起こし、要約、モデレーションを行うオールインワンAPIで2,800万ドルを獲得

AssemblyAI、音声の書き起こし、要約、モデレーションを行うオールインワンAPIで2,800万ドルを獲得

ここ数年、音声・動画コンテンツとインターフェースの爆発的な増加は目に見えて明らかですが、舞台裏でそれらメディアを扱う方法は、まだ追いついていません。2,800万ドルの新たな資金調達を受けたAssemblyAIは、音声分析の頼れるソリューションとなることを目指しており、数千もの音声ストリームの文字起こし、要約、そしてその内容を一度に理解するための非常にシンプルなAPIアクセスを提供しています。

マルチメディアは、信じられないほど短い時間で多くのものの標準となりました。電話や会議はビデオ通話になり、ソーシャルメディアの投稿は10秒の動画になり、チャットボットは発話と音声理解を習得しました。数え切れないほど多くの新しいアプリケーションが登場しており、他の新しい成長産業と同様に、アプリケーションをうまく動作させたり、その上に新しいものを構築したりするためには、人々がそれらのアプリケーションが生成するデータを処理できる必要があります。

問題は、音声は本来扱いにくいということです。音声ストリームをどのように「検索」すればいいのでしょうか?波形を確認したり、スクラブ再生したりすることも可能ですが、まずは文字起こしを行い、その結果のテキストを検索したいと考える方が多いでしょう。そこでAssemblyAIが登場します。文字起こしサービスは数多く存在しますが、それらを自社のアプリや企業のプロセスに統合するのは容易ではありません。

「コンテンツのモデレーション、検索、音声データの要約などを行うには、データをより柔軟な形式に変換し、その上で機能やビジネスプロセスを構築できるようにする必要があります」と、AssemblyAIのCEO兼共同創業者であるDylan Fox氏は述べています。「そこで私たちは、ハッカソンでも誰でも使える、TwilioやStripeのような統合型の超高精度音声分析APIを構築しようと考えました。こうした機能を構築するには多くの支援が必要ですが、複数のプロバイダーを束ねるようなことはしたくありません。」

AssemblyAI は、非常に簡単に (1 行または 2 行のコードで) 呼び出すことができるいくつかの異なる API を提供し、「このポッドキャストに禁止されているコンテンツがないか確認する」、「この会話のスピーカーを識別する」、「この会議を 100 語未満で要約する」などのタスクを実行できます。

Assembly AI の API を呼び出すために使用されているコードの例。
コードを書いて、呼び出して、完了。画像クレジット: AssemblyAI

一度実際に作業に取り組めば、どれほど複雑な作業になるかを考えると、私と同じように、たった一つの小さな会社が、これほど多くのタスクをこれほど簡単にこなせる実用的なツールを開発できるのかと、懐疑的に思うかもしれません。フォックス氏は、これが課題であることを認めつつも、この技術は短期間で大きく進歩したと述べました。

「これらのモデルの精度は、特にここ数年で急速に向上しています」と彼は述べた。「要約、感情識別…どれも今や非常に優れています。そして、私たちは最先端技術に挑戦しています。私たちのモデルは既存のものよりも優れています。なぜなら、私たちは大規模なディープラーニング研究を行っている数少ないスタートアップの一つだからです。今後数ヶ月だけでも、研究開発とトレーニングのためのGPUとコンピューティングに100万ドル以上を費やす予定です。」

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

簡単に実証できないため、直感的に理解するのは難しいかもしれませんが、言語モデルは画像生成(「This ___ does not exist」)やコンピュータービジョン(Face ID、防犯カメラ)と同様に進化してきました。もちろんGPT-3はよく知られた例ですが、フォックス氏は、書き言葉の理解と生成は、会話や日常会話の分析とは全く異なる研究分野であると指摘しました。したがって、機械学習技術(Transformerや新しい、より効率的な学習フレームワークなど)の進歩は両方に貢献しているにもかかわらず、多くの点で全く異なるものです。

いずれにせよ、その結果、APIを呼び出すだけで、数秒から1時間のオーディオクリップまで、効果的なモデレーションや要約処理を実行できるようになりました。これは、例えば短編動画のような機能を構築または統合する際に非常に役立ちます。毎時10万本のクリップがアップロードされると予想される場合、ポルノ、詐欺、重複コンテンツではないことを確認するための最初のプロセスはどのようなものですか? また、そのプロセスを構築するまで、リリースはどれくらい遅れるでしょうか?

フォックス氏は、このような状況にある企業が、決済プロセスの追加に直面した時のように、容易かつ効果的な方法を模索することを期待している。もちろん、ゼロから構築することもできるし、Stripeを15分ほどで導入することもできる。これは根本的に望ましいだけでなく、MicrosoftやAmazonといった大手プロバイダーが提供する音声分析製品に見られるような、より複雑でマルチサービスのパッケージとは明確に一線を画すものだ。

問題のキツネ。
問題のキツネ。画像提供: Jens Panduro

同社は既に数百社の有料顧客を抱え、昨年は売上高が3倍に増加し、現在では1日あたり100万件の音声ストリームを処理している。「当社は100%ライブ配信を行っています。市場もニーズも巨大で、顧客からの支出も見込めます」とフォックス氏は述べた。

2,800万ドルのAラウンドは「Accelが主導し、Y Combinator、ジョン&パトリック・コリソン(Stripe)、ナット・フリードマン(GitHub)、ダニエル・グロス(Pioneer)が参加」した。この計画では、これらの資金を人材採用、研究開発インフラ、そして製品パイプラインの構築に振り向ける。フォックス氏が指摘したように、同社は今後数ヶ月でGPUとサーバーに100万ドルを投じる予定だ。膨大な計算量を必要とする研究・トレーニングプロセスを支えるNvidia A100を大量に投入する。そうでなければクラウドサービスにお金を払わなければならないので、このバンドエイドは早めに剥がした方が良いだろう。

採用に関しては、GoogleやFacebookといった企業と直接競合する中で、人材確保は難しいかもしれないと指摘しました。もちろん、これらの企業は独自の音声分析パイプラインの構築に注力しています。しかし、フォックス氏は楽観的な見方を示しつつも、同社の文化は停滞し、息苦しいと感じていると述べました。

「本当に優秀なAI研究者やエンジニアには、最先端の技術、それも最先端の製品開発に携わりたいという強い願望が間違いなくあると思います」と彼は語った。「革新的な何かを思いついて、数週間後には製品化されている…そんなことができるのはスタートアップだけです。」

10人の投資家が2022年第1四半期のノーコードとローコードの状況について議論