テキスト生成AIは確かに素晴らしいものですが、テキストだけでなく画像も理解できるAIモデルは、強力な新しいアプリケーションを生み出す可能性があります。
例えば、Twelve Labsを見てみましょう。サンフランシスコに拠点を置くこのスタートアップは、共同創業者兼CEOのジェイ・リー氏の言葉を借りれば、「複雑な動画と言語の整合問題を解決する」ためにAIモデルを訓練しています。
「Twelve Labsは、マルチモーダル動画理解のためのインフラ構築を目的として設立されました。最初の取り組みはセマンティック検索、つまり『動画検索はCtrl+F』です」とリー氏はTechCrunchのメールインタビューで語った。「Twelve Labsのビジョンは、開発者が私たちと同じように世界を見て、聞いて、理解できるプログラムを開発できるよう支援することです。」
Twelve Labs のモデルは、アクション、オブジェクト、背景音など、ビデオ内で起こっていることに自然言語をマッピングすることを試みます。これにより、開発者はビデオを検索したり、シーンを分類してビデオ内からトピックを抽出したり、ビデオ クリップを自動的に要約して章に分割したりできるアプリを作成できるようになります。
リー氏によると、Twelve Labsの技術は、広告挿入やコンテンツモデレーションといった分野で活用できるという。例えば、ナイフが登場する動画のうち、暴力的な動画と教育的な動画を区別するといった用途が考えられる。また、メディア分析にも活用でき、動画からハイライト動画(ブログ記事の見出しとタグ)を自動生成することもできるとリー氏は付け加えた。
モデルが学習に使用したデータのバイアスを増幅させるという科学的根拠が確立されていることを踏まえ、リー氏にこれらのモデルにバイアスが生じる可能性について尋ねた。例えば、犯罪をセンセーショナルかつ人種差別的に報道することに多くの時間を費やすことが多い地元ニュースのクリップを主に用いて動画理解モデルを学習させると、モデルは性差別的なパターンだけでなく人種差別的なパターンも学習してしまう可能性がある。
リー氏は、トゥエルブ・ラボはモデルを公開する前に、社内のバイアスと「公平性」の基準を満たすよう努めており、将来的にはモデル倫理に関するベンチマークとデータセットを公開する予定だと述べた。しかし、それ以上の情報は何もなかった。
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日

「ChatGPTのような大規模言語モデルと当社の製品の違いについて言えば、当社の製品は動画を処理・理解するために特別にトレーニング・構築されており、動画内の映像、音声、そして音声要素を総合的に統合しています」とリー氏は述べた。「私たちは動画理解における技術的限界を真に押し広げてきました。」
Googleは、動画理解のための同様のマルチモーダルモデル「MUM」を開発しており、Google検索とYouTubeで動画のレコメンデーション機能に活用しています。MUM以外にも、Google、Microsoft、Amazonは、動画内のオブジェクト、場所、行動を認識し、フレームレベルで豊富なメタデータを抽出するAPIレベルのAIベースのサービスを提供しています。
しかしリー氏は、Twelve Labs はモデルの品質とプラットフォームの微調整機能の両方で差別化されていると主張している。この機能により、顧客は独自のデータを使用してプラットフォームのモデルを自動化し、「ドメイン固有の」ビデオ分析を行うことができる。
モデル面では、Twelve Labsは本日、動画全体の分析に関連する様々なプロンプトを理解する新しいマルチモーダルモデル「Pegasus-1」を発表しました。例えば、Pegasus-1は、動画に関する長文の説明レポートを生成することも、タイムスタンプ付きのハイライト映像を生成することもできます。
「企業組織は、膨大なビデオデータを新たなビジネスチャンスに活用できる可能性を認識しています。しかしながら、従来のビデオAIモデルの機能は限定的で単純すぎるため、多くのビジネスユースケースで求められる複雑な理解には対応しきれない場合が多くあります」とリー氏は述べています。「強力なマルチモーダルビデオ理解基盤モデルを活用することで、企業は手動分析なしに人間レベルのビデオ理解を実現できます。」
5月初旬にプライベートベータ版をリリースして以来、Twelve Labsのユーザーベースは1万7000人の開発者にまで拡大したとリー氏は主張する。同社は現在、スポーツ、メディア・エンターテインメント、eラーニング、セキュリティなど、NFLを含む様々な業界の企業(具体的な数はリー氏も明かさなかった)と提携している。
Twelve Labsは資金調達も継続しており、これはスタートアップ企業にとって重要な要素です。本日、同社はNVIDIA、Intel、Samsung Nextから1,000万ドルの戦略的資金調達ラウンドを完了し、累計調達額が2,700万ドルに達したと発表しました。
「今回の新たな投資は、研究(コンピューティング)、製品、そして流通の面で当社を加速させてくれる戦略的パートナーとの提携に尽きます」とリー氏は述べています。「これは、当社の研究室の研究に基づいた、動画理解分野における継続的なイノベーションの原動力となり、お客様のユースケースに関わらず、常に最も強力なモデルをお客様に提供し続けることができるようになります。私たちは、企業が素晴らしい成果を上げられるよう、業界を前進させています。」
カイル・ウィガーズは2025年6月までTechCrunchのAIエディターを務めていました。VentureBeatやDigital Trendsに加え、Android Police、Android Authority、Droid-Life、XDA-Developersといった様々なガジェットブログにも記事を寄稿しています。音楽療法士のパートナーとマンハッタンに在住。
バイオを見る