TwelveLabsは、ビデオを分析し検索できるAIを構築しています

TwelveLabsは、ビデオを分析し検索できるAIを構築しています

テキストだけでなく動画も理解できるAIモデルは、強力な新しいアプリケーションを生み出す可能性がある。少なくとも、TwelveLabsの共同創業者であるジェイ・リー氏はそう信じている。

確かに、リー氏の意見には多少偏りがある。TwelveLabsは様々なユースケースを想定した動画分析モデルを訓練している。しかし、彼の主張には一理あるかもしれない。

TwelveLabsのモデルを使用すると、ユーザーは動画内で特定の瞬間を検索したり、クリップを要約したり、「赤いシャツを着た人はいつレストランに入ったか」などの質問をしたりすることができます。これは強力な機能セットであり、おそらくこれが同社がNvidia、Samsung、Intelなどの大手企業の支援を受けている理由です。

ビデオ検索

データサイエンティスト出身のリーにとって、動画検索では基本的な検索は意味をなさない。キーワード検索ではタイトル、タグ、説明は表示されるものの、動画の実際のコンテンツにはアクセスできないのだ。

「動画は最も急速に成長している、そして最もデータ集約的なメディアです。しかし、ほとんどの組織は、保有する動画アーカイブを精査するために人的リソースを割くつもりはありません」とリー氏はTechCrunchに語った。「たとえ手動でタグ付けを試みても、問題は解決しません。動画の中で特定の瞬間やアングルを見つけるのは、干し草の山から針を探すようなものです。」

より良い解決策が見つからなかった後、リー氏はエイデン・リー氏、SJ・キム氏、デイブ・チャン氏、ソヨン・リー氏といった同僚たちを招き、解決策の開発に着手しました。これがTwelveLabsの誕生です。TwelveLabsは、動画内のアクション、オブジェクト、背景音など、動画内で起こっている出来事とテキストをマッピングするモデルを訓練しています。

GoogleのGeminiのようなモデルは映像を検索することができ、MicrosoftやAmazonなどの企業は、動画内の物体を見つけるための動画分析サービスを提供しています。しかし、リー氏は、TwelveLabsの製品は、顧客が独自のデータを使ってモデルをカスタマイズできるカスタマイズオプションを備えている点が他社製品と一線を画していると主張しています。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

12のラボ
TwelveLabsの共同創業者兼CEO、ジェイ・リー氏。画像提供: TwelveLabs

「OpenAIやGoogleのような企業は、汎用マルチモーダルモデルに多額の投資を行っています」とリー氏は述べた。「しかし、これらのモデルは動画向けに最適化されていません。私たちの差別化要因は、最初から動画ファーストであることにあります。…動画は私たちが唯一注力すべき分野であり、単なる追加機能ではないと考えています。」

開発者はTwelveLabsのモデルを基盤として、動画映像などを検索するアプリを開発できます。同社の技術は、広告挿入、コンテンツモデレーション、動画クリップからのハイライト動画の自動生成などを可能にします。

昨年リー氏と話した際、TwelveLabsのモデルにバイアスが生じる可能性について尋ねました。これは大きなリスク要因です。2021年の研究では、犯罪を人種差別的に報道する傾向がある地元ニュースのクリップで動画理解モデルを訓練すると、モデルが人種差別的なパターンを学習する可能性があることがわかりました。

リー氏は当時、TwelveLabsはモデル倫理に関するベンチマークとデータセットを公開する予定だと述べていました。しかし、同社はまだ公開していません。最近の会話でリー氏は、これらのツールは開発中であり、TwelveLabsは公開前にすべてのモデルに対してバイアステストを実施していると明言しました。

「バイアスに関する正式なベンチマークはまだ発表していません。それは、それが有意義で、実用的で、実行可能なものであることを確認したいからです」と彼は述べた。「私たちの全体的な目標は、私たちに責任を負わせるだけでなく、業界の標準となるベンチマークを開発することです。…この目標を完全に達成するまでは――そして、私たちはこの目標に取り組むチームを持っています――組織に責任ある行動を促し、人々の市民的自由を尊重し、技術革新を推進するAIの開発に積極的に取り組んでいます。」

Lee 氏は、TwelveLabs はパブリック ドメインとライセンスされたデータの組み合わせでモデルをトレーニングしており、トレーニングに顧客データを使用することはないと付け加えた。

成長モード

TwelveLabsの事業の中核は依然として動画分析です。しかし、機敏性を維持するため、同社は「Any-to-Any」検索やマルチモーダル埋め込みといった分野にも進出しています。

TwelveLabs のモデルの 1 つである Marengo は、ビデオに加えて画像や音声も検索でき、検索をガイドするための参照用音声録音、画像、またはビデオ クリップを受け入れることができます。

同社はまた、動画、テキスト、画像、音声ファイルなどのマルチモーダル埋め込みを作成するためのAPI「Embed API」も提供しています。埋め込みとは、異なるデータポイント間の意味や関係性を捉える数学的表現であり、異常検知などのアプリケーションに役立ちます。

TwelveLabsの製品ポートフォリオの拡大は、エンタープライズ、メディア、エンターテインメント分野の顧客獲得に役立っています。主要パートナーはDatabricksとSnowflakeの2社で、両社ともTwelveLabsのツールを自社の製品に組み込んでいます。

12のラボ
TwelveLabsは、マルチモーダルな動画理解モデルを構築しています。質問に答えたり、検索を実行したり、その他さまざまな機能を備えています。画像クレジット: TwelveLabs

Databricksは、顧客が既存のデータパイプラインからTwelveLabsの埋め込みサービスを呼び出せる統合機能を開発しました。一方、Snowflakeは、フルマネージドAIサービスであるCortex AIでTwelveLabsモデルへのコネクタを開発しています。

「現在、3万人以上の開発者が当社のプラットフォームを利用しており、個人で実験を行っている人から、当社の技術を自社のワークフローに統合している大企業まで、多岐にわたります」とリー氏は述べています。「例えば、自治体と提携し、リアルタイムの脅威検知、緊急対応時間の短縮、交通管理の支援といったユースケースに取り組んでいます。」

戦略的支援の一環として、DatabricksとSnowflakeはそれぞれベンチャー部門を通じて今月TwelveLabsに投資しました。SK TelecomとHubSpot Venturesに加え、バージニア州アーリントンに拠点を置き、米国の諜報活動を支援するスタートアップ企業に投資する非営利ベンチャーキャピタルIn-Q-Telも参加しました。

新たな投資総額は3,000万ドルに達し、TwelveLabsの調達総額は1億710万ドルとなった。リー氏によると、調達資金は製品開発と採用に充てられるという。

「当社は非常に健全な財務状況にありますが、TwelveLabsを深く信頼するリーダーたちと重要な戦略的関係を深める機会を見出しました」とリー氏は述べた。「現在、正社員は73名おり、エンジニアリング、研究、そして顧客対応の各職種において、採用に多額の投資を計画しています。」

新入社員

採用といえば、TwelveLabsは木曜日、経営幹部にユン・キム氏を社長として迎え入れることを発表しました。キム氏はSKテレコムの元CTOであり、AppleのSiriの主要設計者でもあります。ユン氏はTwelveLabsの最高戦略責任者も兼任し、スタートアップの積極的な事業拡大計画を主導します。

「TwelveLabsのような歴史と段階にある企業が社長を任命するのは異例ですが、今回の人事は当社がこれまで経験してきた需要の高さを物語っています」とリー氏は述べ、ユン氏はTwelveLabsのサンフランシスコ本社とソウルのオフィスを兼任すると付け加えた。「ユン氏は当社の事業遂行を支えてくれる最適な人物です。彼は、主要な買収による将来の成長の推進、グローバル展開の拡大、そして野心的な目標達成に向けたチームの連携強化において、重要な役割を果たしてくれるでしょう。」

リー氏によると、今後数年間で自動車やセキュリティといった新たな隣接分野への進出を目指しているという。In-Q-Telの関与を考えると、セキュリティ(そしておそらく防衛関連)への進出は確実と思われるが、リー氏は明言を避けた。

「In-Q-Telからの投資は、国家安全保障を含む多くの分野における当社の技術の汎用性と可能性を反映しています」とリー氏は述べた。「当社は、倫理ガイドラインに沿って、当社の技術がプラスの影響を与え、意義深く、責任ある影響を与えることができる機会を常に模索しています。」

TechCrunchではAIに特化したニュースレターを配信しています!  毎週水曜日に受信ボックスに配信されますので、こちらからご登録ください。