私たちが日々触れ、作成するメディアの中で動画が占める割合がますます増えるにつれ、そのコンテンツを追跡し、インデックス化する必要性も高まっています。あの質問をしたのはどの会議やセミナーだったでしょうか?税制に関する部分はどの講義だったでしょうか?Twelve Labsは、動画の要約と検索のための機械学習ソリューションを提供しており、消費者とクリエイターの両方にとって、作業をより迅速かつ容易にすることができます。
このスタートアップが提供する機能は、「コートニーが国歌斉唱したオフィスパーティー」といった複雑かつ漠然とした検索キーワードを入力するだけで、動画だけでなく、その瞬間を瞬時に取得できるというものだ。「Ctrl+Fで動画」と謳われている。(Macの場合はcommand+F)
「でも待って、動画なら今すぐ検索できるじゃないか!」と思うかもしれません。確かに、YouTubeや大学のアーカイブなら、お目当ての動画が見つかることはよくあります。でも、その後はどうなるのでしょう? 動画をスクロールして探していた部分を探したり、トランスクリプトをスクロールして、正確にどんな言い回しだったか思い出そうとしたりするでしょう。
動画を検索する際、実際にはタグや説明など、簡単に追加できる基本的な要素を探しているからです。目的の動画を検索結果に表示させるには、ある程度のアルゴリズムの力が必要ですが、システムは動画そのものを実際には理解していません。
「業界は問題を単純化しすぎて、タグで検索を解決できると考えすぎています」と、Twelve Labsの創設者兼CEOであるジェイ・リー氏は述べた。現在多くのソリューションは、例えば動画の一部のフレームに猫が映っていることを認識して「#cats」というタグを追加するといった処理に依存している。「しかし、動画は単なる画像の連続ではなく、複雑なデータです。私たちは、映像と音声の両方を取り込み、それらに基づいて文脈を構築できる新しいニューラルネットワークを構築する必要があることを知っていました。これはマルチモーダル理解と呼ばれています。」
これは今、AI業界でホットなキーワードです。音声や静止画といった一つの「感覚」に焦点を絞ったAIシステムが世界を理解できる限界に達しつつあるように思われるからです。例えばFacebookは最近、誤情報やヘイトスピーチを検出するには、投稿内の画像とテキストの両方に同時に注意を払うAIが必要だと気づきました。
動画の場合、個々のフレームを見てタイムスタンプ付きのトランスクリプトと関連付けようとすると、理解は限定的なものになります。人々は動画を視聴する際、動画と音声の情報を自然に融合させ、ペルソナ、行動、意図、因果関係、インタラクション、その他より高度な概念を作り上げます。
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日
Twelve Labsは、自社のビデオ理解システムでこれと似たようなものを構築したと主張している。リー氏は、このAIはマルチモーダルな視点からビデオにアプローチするように訓練されており、最初から音声とビデオを関連付け、より豊かな理解を生み出すと説明している。

「フレーム内のアイテム間の関係性や過去と現在の繋がりといった、より複雑な情報も組み込むことで、複雑なクエリが可能になります」と彼は述べた。「例えば、YouTuberが『ミスター・ビーストがジョーイ・チェスナットにハンバーガーを食べさせる』と検索した場合、誰かに挑戦すること、そして挑戦について話すことの概念を理解するでしょう。」
確かに、プロであるミスタービーストなら、タイトルやタグに特定のデータを入れているかもしれませんが、それが普通のvlogや一連のチャレンジの一部だったらどうでしょう?ミスタービーストがその日は疲れていて、メタデータをすべて正しく入力していなかったらどうでしょう?ハンバーガーチャレンジが12個、あるいは1000個あって、動画検索でジョーイ・チェスナットとジョシー・エイコーンの違いが判別できなかったらどうでしょう?コンテンツの表面的な理解に頼っている限り、失敗する可能性はいくらでもあります。1万本の動画を検索可能にしたい企業であれば、既存のものよりも優れた、そしてはるかに労力のかからない方法を求めるはずです。
Twelve Labsは、このツールをシンプルなAPIとして構築しました。このAPIを呼び出すことで、1本(あるいは1,000本)の動画をインデックス化し、豊富な要約を生成して、選択したグラフに関連付けることができます。つまり、全社会議やスキル共有セミナー、毎週のブレインストーミングセッションを録画すれば、時間や出席者だけでなく、誰がいつ、何について話したか、さらには図を描いたりスライドを見せたりするなどのアクションも検索対象にすることができます。
「膨大な組織データを保有する企業が、CEOが特定のコンセプトについていつ話したり、発表したりしているのかを知りたいと考えているのを目にしてきました」とリー氏は述べた。「私たちは、データポイントと興味深いユースケースを収集するために、関係者と綿密に連携してきました。そして、そのようなユースケースは数多く見受けられます。」

動画を検索用に処理し、その結果として動画内で何が起こっているかを理解することの副次的な効果として、要約とキャプションを生成できるようになります。これも改善の余地がある領域です。自動生成されたキャプションは、当然ながら品質にばらつきがあり、検索機能や動画内の人物や状況へのキャプションの付与など、より複雑な機能も備えています。要約はあらゆる場面で急速に普及している分野です。これは、全ての動画を視聴する時間が十分にないというだけでなく、高レベルの要約はアクセシビリティからアーカイブ化まで、あらゆる面で価値があるからです。
重要なのは、API は対象となるコーパスに合わせて微調整できることです。例えば、専門用語が多かったり、馴染みのない状況がいくつかあったりしても、役員会議室や一般的なビジネス会話(それが何であれ)といったより一般的な状況と同様に機能するようにトレーニングできます。しかも、大学の講義、防犯カメラの映像、料理の音声といったものまで対象に含められる前の話です。

その点において、同社は「ビッグネットワーク」型の機械学習を強く支持しています。これほど複雑なデータを理解し、多様な結果を生成できるAIモデルを構築するには、学習と展開に膨大な計算量が必要になります。しかし、この問題にはまさにそれが必要なのです、とリー氏は述べました。
「私たちは大規模ニューラルネットワークの有効性を強く信じていますが、単にパラメータサイズを大きくするだけでは不十分です」と彼は述べた。「パラメータは数十億個に上りますが、効率化のために技術的な工夫を凝らしました。例えば、すべてのフレームを見るのではなく、軽量アルゴリズムで重要なフレームを特定するといった工夫をしています。言語理解とマルチモーダル空間には、まだ多くの科学的進歩が残されています。しかし、大規模ネットワークの目的は、そこに入力されたデータの統計的表現を学習することであり、私たちはまさにこの概念を強く信じているのです。」
Twelve Labsは、世の中にある多くの動画のインデックス作成に貢献したいと考えていますが、ユーザーはおそらくその存在に気づかないでしょう。開発者向けのプレイグラウンド以外に、Twelve Labsには動画を検索できるウェブプラットフォームがないからです。このAPIは既存の技術スタックに統合されることを想定しており、通常動画を検索する場所ではこれまで通り検索できますが、検索結果ははるかに向上します。(ベンチマークテストでは、このAPIが他のモデルを圧倒していることが示されています。)
Google、Netflix、Amazonといった企業がまさにこの種の動画理解モデルに取り組んでいることはほぼ確実だが、リー氏は気にしていない様子だった。「これまでの経緯を見れば、YouTubeやTikTokのような大企業では、検索はプラットフォームに特化しており、事業の中核を成すものだ」と彼は述べた。「彼らが自社のコア技術を丸ごと抜き取って潜在顧客に提供するのではないかと心配しているわけではない。ベータパートナーのほとんどは、これらの大企業のいわゆるソリューションを試してから、私たちに相談に来たのだ。」
同社はベータ版から市場投入するために500万ドルのシードラウンドを調達した。このラウンドはIndex Venturesが主導し、Radical Ventures、Expa、Techstars Seattleが参加したほか、スタンフォード大学のAIリーダーであるFei-Fei Li氏、Scale AI CEOのAlex Wang氏、Patreon CEOのJack Conte氏、AI2のOren Etzioni氏などのエンジェル投資家も参加した。
今後の計画としては、ベータ パートナーにとって最も有用であることが証明された機能を構築し、近い将来にオープン サービスとしてデビューさせることです。