大規模な機械学習モデルは、OpenAIのDALL-E 2やGoogleのLaMDAといった注目を集める技術の中核を成しています。これらのモデルは確かに素晴らしいもので、人間の手によるものと見紛うほど説得力のある画像やテキストを生成できます。しかし、これらのモデルの開発には膨大な時間と計算能力、そしてもちろん資金も必要でした。DALL-E 2だけでも2週間かけて256基のGPUでトレーニングされましたが、ある推計によると、Amazon Web Servicesのインスタンスでトレーニングした場合のコストは約13万ドルに相当します。
小規模な企業は対応に苦戦しており、多くの企業が「AI as a Service」ベンダーに目を向けています。これらのベンダーは、モデル作成という困難な作業を代行し、API経由でモデルへのアクセス料金を請求します。そのようなベンダーの一つがAssemblyAIで、音声テキスト変換とテキスト分析サービスに特化しています。
AssemblyAIは本日、Insight Partnersがリードし、Y CombinatorとAccelも参加したシリーズBラウンドで3,000万ドルを調達したと発表しました。AssemblyAIはこれまでに6,400万ドルを調達しており、創業者兼CEOのDylan Fox氏はTechCrunchに対し、この資金は同社の研究・エンジニアリングチームの拡大と、データセンターのキャパシティ拡大のためのAIモデルトレーニングに投資されていると述べています。
フォックス氏は、シスコシステムズで2年間勤務し、コラボレーション製品向けの機械学習に取り組んだ後、AssemblyAIを設立しました。それ以前は、企業と協力して顧客に非営利寄付と引き換えに製品を提供する組織「YouGive1」を設立しました。
「過去のプロジェクトで音声認識と自然言語処理(NLP)のAPIを探していましたが、2017年に利用可能な選択肢が限られており、精度が低いことに気づき、AssemblyAIを設立しました」とフォックス氏はTechCrunchのメールインタビューで語った。「当社の目標は、NLPと音声認識のための最先端のAIモデルを研究・展開し、それらのモデルを非常にシンプルなソフトウェア開発キットとAPIとして開発者に公開することです。これらのツールは無料で簡単に統合できます。」
AssemblyAIは、80以上の言語に対応したAIを活用したAPIベースのサービスを提供しており、自動文字起こし、トピック検出、コンテンツモデレーションに加え、「自動チャプター」機能も提供しています。この機能は、音声ファイルと動画ファイルを「チャプター」に分割し、それぞれの要約を作成します。開発者は、このプラットフォームを利用することで、様々なAPIを呼び出して、「この会話の話し手を特定する」や「このポッドキャストに禁止コンテンツが含まれていないか確認する」といったタスクを、1秒あたり0.00025ドルという比較的低コストで実行できます。

「数百基のGPUと数十億のパラメータを用いて、大規模なAIモデルをトレーニングしています」とフォックス氏は述べた。「パラメータ」とはモデルの規模を指し、一般的に、モデルが大きいほど洗練されていると言える。「AI研究の進歩を活用し、すべてのAIモデルの精度を飛躍的に向上させ、新たなモデルもリリースし続けています」とフォックス氏は続ける。「当社の『AutoTrain』機能により、APIは顧客のデータのランダムサンプルから学習し、時間の経過とともに自動的に改善していくことができます。」
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日
活気あふれるAI-as-a-Service分野で活躍しているのはAssemblyAIだけではありません。NLPCloudはAPIを通じてすぐに使えるNLPモデルを提供しており、Saysoはアクセントのある英語をほぼリアルタイムで別のアクセントに変換するAPIを開発しました。Amazon、Google、Microsoftがテキスト分析、画像認識、音声合成、音声テキスト変換などのアプリケーションを対象としたAPIベースのAI製品を多数提供しているのも当然です。
しかしフォックス氏によると、AssemblyAIはパンデミック、そしてひいてはリモートワークの増加に後押しされ、急速な成長を続けているという。ビデオ会議や出会い系アプリなど、音声と動画が組み込まれる製品が増えているとフォックス氏は指摘する。そのため、製品チームは音声と動画データを基に付加価値の高い機能を構築する方法を模索している。
「これらの機能は、ソーシャルメディア企業の信頼性と安全性チームが音声投稿のコンテンツモデレーションを自動化したり、広告プラットフォームがポッドキャストや動画で話されているトピックを自動で特定したり、プラットフォーム内で共有される動画メッセージに読みやすいトランスクリプト、要約、キーワードを提供するコラボレーションツール、電話会社がよりスマートなコンタクトセンタープラットフォームや、顧客サポートや営業の電話通話を分析できる収益インテリジェンス製品を構築したりするのと似ています」とフォックス氏は述べています。「AssemblyAIは、これらの製品チームが自社製品内の音声・動画データにAIを組み込んだ機能を搭載できるようにするための、頼りになるAPIプラットフォームになりつつあります。」
フォックス氏によると、AssemblyAIは現在、1万人以上のユーザーのうち「数百」の有料顧客を抱えているという。2022年初頭以降、ユーザーベースは3倍に増加し、収益(フォックス氏は開示を拒否した)も3倍に増加した。
「私たちは毎日何百万ものAPI呼び出しを処理しています」とフォックス氏は述べた。「今後6ヶ月でAI研究チームを3倍に増強し、GPUハードウェアに数百万ドルを投資して、限界に挑戦するより大規模で複雑なAIモデルを学習させる予定です。」
フォックス氏は、この成長によって、どんな逆風が吹こうとも、AssemblyAIは来年に向けて良いポジションを築くことができると確信している。レイオフが日常化し、資金調達が困難な状況にある中、AssemblyAIは年末までに52名のチームをほぼ倍増させることで、この流れに逆らうつもりだとフォックス氏は述べている。
「アクセルから2月にシリーズAの資金調達を完了したばかりで、資金はほとんど残っておらず、積極的な資金調達も行っていませんでした。しかし、Insightのレベッカ(リュー=ドイル氏)とはしばらく前から連絡を取り合っており、彼女とInsight全体、そして今回の追加資金が、私たちの成長をさらに加速させる大きな力になると感じていました」とフォックス氏は述べた。「市場が活性化するにつれ、私たちはこの分野で主導的なプロバイダーとしての地位を確立するとともに、顧客の高まる期待に応える必要があります。そのためには、顧客が開発中の機能や製品をサポートできる、より高精度なAIモデルを提供する必要があります。」
カイル・ウィガーズは2025年6月までTechCrunchのAIエディターを務めていました。VentureBeatやDigital Trendsに加え、Android Police、Android Authority、Droid-Life、XDA-Developersといった様々なガジェットブログにも記事を寄稿しています。音楽療法士のパートナーとマンハッタンに在住。
バイオを見る