Twelve Labs、動画の文脈を理解するAIに1200万ドルを調達

Cemubo vgnpne 0

Apps

データサイエンティストのジェイ・リー氏にとって、TikTok、Vimeo、YouTubeといったプラットフォームの台頭により、私たちの生活に欠かせないものとなった動画が、文脈理解という技術的な障壁のために検索が難しいというのは、全く理解できませんでした。動画のタイトル、説明、タグを検索するのは、基本的なアルゴリズムさえあれば、これまでも簡単でした。しかし、動画内の特定の瞬間やシーンを検索するのは、特にそれらの瞬間やシーンが明確にラベル付けされていない場合、技術の能力をはるかに超えていました。

この問題を解決するため、リー氏はテクノロジー業界の友人たちと共に、動画検索・理解のためのクラウドサービスを構築した。これがTwelve Labsとなり、ベンチャーキャピタルから1,700万ドルを調達した。そのうち1,200万ドルは本日締め切られたシードラウンドからの調達だ。リー氏はTechCrunchへのメールで、Radical Venturesがシードラウンドの資金調達を主導し、Index Ventures、WndrCo、Spring Ventures、Weights & BiasesのCEOであるLukas Biewald氏などが参加したと説明した。

「Twelve Labsのビジョンは、開発者に最も強力なビデオ理解インフラストラクチャを提供することで、開発者が私たちと同じように世界を見て、聞いて、理解できるプログラムを構築できるように支援することです」とリー氏は述べた。

Twelve Labsプラットフォームの機能デモ。**画像提供：** Twelve Labs

現在クローズドベータ版となっているTwelve Labsは、AIを用いて動画から動きや動作、物体や人物、音、画面上のテキスト、音声といった「豊富な情報」を抽出し、それらの関係性を特定しようと試みています。このプラットフォームは、これらの様々な要素を「ベクトル」と呼ばれる数学的表現に変換し、フレーム間の「時間的つながり」を形成することで、動画シーン検索などのアプリケーションを実現します。

「開発者がインテリジェントな動画アプリケーションを開発できるよう支援するという当社のビジョンを実現する一環として、Twelve Labsチームはマルチモーダル動画理解のための『基盤モデル』を構築しています」とリー氏は述べています。「開発者はAPIスイートを通じてこれらのモデルにアクセスし、セマンティック検索だけでなく、長編動画の『チャプター化』、要約生成、動画の質疑応答といった他のタスクも実行できるようになります。」

Googleは、MUM AIシステムで動画理解に同様のアプローチを採用しています。このシステムでは、音声、テキスト、映像コンテンツに基づいて動画内のテーマ（例：「アクリル画材」）を抽出し、Google検索とYouTubeで動画のレコメンデーション機能を提供しています。技術自体はMUMと同等かもしれませんが、Twelve LabsはMUMをいち早く市場に投入したベンダーの一つです。GoogleはMUMを社内利用に留め、一般向けAPIとして提供することを拒否しています。

とはいえ、Google、Microsoft、Amazonは、動画内の物体、場所、行動を認識し、フレームレベルで豊富なメタデータを抽出するサービス（Google Cloud Video AI、Azure Video Indexer、AWS Rekognitionなど）を提供しています。また、フランスのコンピュータービジョンスタートアップであるReminizは、あらゆる種類の動画をインデックス化し、録画コンテンツとライブストリーミングコンテンツの両方にタグを付与できると主張しています。しかし、Lee氏は、Twelve Labsは十分な差別化を図っていると主張しています。その理由の一つは、同社のプラットフォームでは顧客が特定のカテゴリーの動画コンテンツに合わせてAIを微調整できるからです。

テッククランチイベント

サンフランシスコ | 2025年10月27日～29日

サラダ関連コンテンツでモデルをより適切に動作させるために微調整するためのAPIのモックアップ。**画像クレジット：** Twelve Labs

「特定の問題を検出するために構築された限定的なAI製品は、制御された環境下では理想的なシナリオにおいて高い精度を示すものの、複雑な現実世界のデータにはそれほど適応できないことが分かりました」とリー氏は述べています。「これらの製品はルールベースのシステムとして動作するため、差異が生じた場合に一般化する能力が欠けています。また、これは文脈理解の欠如に起因する限界だとも考えています。文脈理解こそが、現実世界における一見異なる状況においても一般化を行うという人間独自の能力を与えており、Twelve Labsはこの点で他社を圧倒しています。」

リー氏によると、Twelve Labsの技術は検索以外にも、広告挿入やコンテンツモデレーションといった機能も提供しており、例えば、ナイフが映っている動画のうち、暴力的な動画と教育的な動画をインテリジェントに判別できるという。また、メディア分析やリアルタイムフィードバックにも活用でき、動画からハイライト動画を自動生成することもできるという。

創業から1年余り（2021年3月）が経過した現在、Twelve Labsは有料顧客を獲得している（リー氏は具体的な数は明かさなかった）。また、Oracleのクラウドインフラを用いてAIモデルをトレーニングする複数年契約をOracleと締結している。今後、同社は技術構築とチーム拡大に投資する計画だ。（リー氏はTwelve Labsの現在の従業員数を明らかにしなかったが、LinkedInのデータによると約18人である。）

「多くの企業にとって、大規模モデルによって得られる価値は計り知れないものの、自社でこれらのモデルのトレーニング、運用、保守を行うのは現実的に合理的ではありません。Twelve Labsのプラットフォームを活用することで、あらゆる組織が数回の直感的なAPI呼び出しだけで、強力な動画理解機能を活用できるようになります」とリー氏は述べています。「AIイノベーションの未来は、マルチモーダル動画理解へと向かっており、Twelve Labsは2023年にその限界をさらに押し広げる絶好の位置にいます。」

カイル・ウィガーズは2025年6月までTechCrunchのAIエディターを務めていました。VentureBeatやDigital Trendsに加え、Android Police、Android Authority、Droid-Life、XDA-Developersといったガジェット系ブログにも記事を寄稿しています。音楽療法士のパートナーとマンハッタンに在住。

バイオを見る

Posted by Cemubo