WaveOneはビデオをAIネイティブ化し、ストリーミングを根本から変えることを目指している

Cemubo vgnpne 0

Watch

ビデオは長きにわたり、同じ仕組みで動いてきました。そして、その独特な特性ゆえに、次々と業界を揺るがす機械学習の爆発的な発展の影響をほとんど受けていません。WaveOneは、数十年も前からあるビデオコーデックのパラダイムをAIで駆動することで、この状況を変えたいと考えています。同時に、コーデック革命家や「AI駆動型」スタートアップが陥りがちな落とし穴を何とか回避したいと考えています。

このスタートアップはこれまで、論文やプレゼンテーションで成果を発表するだけにとどまっていましたが、最近650万ドルのシードラウンドを調達したことで、実際の製品のテストと展開に向けて準備が整いました。動画圧縮は一部の人にとっては少し難解に思えるかもしれませんが、現代のインターネットにおいて最も重要なプロセスの一つとなっていることは間違いありません。

デジタルビデオが初めて可能になった昔から、ほぼずっとこの仕組みが続いてきました。開発者は、ビデオの圧縮と解凍のための標準アルゴリズム、つまりコーデックを作成します。コーデックは簡単に配布でき、一般的なコンピューティングプラットフォームで実行できます。これはMPEG-2やH.264といったものです。ビデオの圧縮という大変な作業はコンテンツプロバイダーとサーバーが行い、解凍という比較的簡単な作業はエンドユーザーのマシンで行われます。

このアプローチは非常に効果的で、コーデックの改良（より効率的な圧縮を可能にする）によってYouTubeのようなサイトが実現可能になりました。もし動画のサイズが10倍だったら、YouTubeは今の時代には立ち上がらなかったでしょう。もう一つの大きな変化は、コーデックのハードウェアアクセラレーションに依存するようになったことです。コンピューターやGPUには、コーデックが組み込まれたチップが内蔵されており、スマートフォンに搭載されている一般的な汎用CPUよりもはるかに高速に解凍タスクを実行できるようになりました。ただ一つ問題があります。新しいコーデックを導入すると、新しいハードウェアが必要になるのです。

Macに最適化されたTensorFlowが新しいM1とGPUの力を発揮

しかし、考えてみてください。多くの新型スマートフォンには、機械学習モデルの実行用に設計されたチップが搭載されています。機械学習モデルはコーデックと同様に高速化できますが、コーデックとは異なり、ハードウェアはモデル専用ではありません。では、なぜこの機械学習に最適化されたチップを動画撮影に使用しないのでしょうか？まさにそれがWaveOneの狙いなのです。

テッククランチイベント

サンフランシスコ | 2025年10月27日～29日

最初にWaveOneの共同創業者であるCEOのルボミール・ブルデフ氏とCTOのオーレン・リッペル氏と話したとき、彼らの輝かしい経歴にもかかわらず、私はかなり懐疑的だったと言わざるを得ません。コーデック企業が次々と現れては消えていくのを見てきましたが、テクノロジー業界は少数のフォーマットと標準規格に集約され、それらは非常にゆっくりと改訂されてきました。例えばH.265は2013年に導入されましたが、その前身であるH.264はそれから数年経ち、ようやく普及し始めたばかりでした。バージョン7、バージョン7.1といった規格というよりは、3G、4G、5Gシステムに近いと言えるでしょう。そのため、小規模な規格、たとえ優れた無料オープンソース規格であっても、業界を横断する標準規格の歯車に押しつぶされてしまう傾向があります。

コーデックのこうした実績に加え、スタートアップ企業が事実上あらゆるものを「AI搭載」と表現したがるという事実から、私はせいぜい見当違い、最悪の場合は詐欺まがいのものを想像していました。しかし、嬉しい驚き以上のものでした。実際、WaveOneは後から見れば当たり前のことのように思え、先行者利益があるように思える製品なのです。

リッペル氏とブルデフ氏がまず明確にしたのは、AIがここで実際に重要な役割を果たすということだ。H.265のようなコーデックは愚かではない――多くの点で非常に先進的――だが、厳密に言えば賢いわけでもない。色やディテールのエンコードにビットを多く割り当てるべき場所を大まかに判断することはできるが、例えば、ショット内のどこに特別な処理を施すべき顔があるか、あるいは時間を節約するために特別な方法で処理できる看板や木があるかを判断することはできない。

しかし、顔とシーンの検出はコンピュータービジョンにおいて事実上解決済みの問題です。なぜビデオコーデックは顔の存在を認識し、それに比例したリソースを割り当てないのでしょうか？これは非常に良い質問です。答えは、コーデックの柔軟性が不十分だからです。コーデックはそのような入力を受け付けません。H.266がいつリリースされるかは分かりませんが、もしかしたら対応できるかもしれません。そして数年後にはハイエンドデバイスでサポートされるようになるでしょう。

では、今からどうすればいいのでしょうか？多くのスマートフォンやコンピューターに搭載されている、あるいは近いうちに搭載されるであろうAIアクセラレーター上で動作する動画圧縮・解凍アルゴリズムを作成し、シーンと物体の検出機能を最初から組み込むのです。Krisp.aiが音声を認識し、超複雑なスペクトル分析をすることなく音声を分離するのと同じように、AIは視覚データからそのような判断を驚くほど高速に行い、それを実際の動画圧縮部分に渡すことができます。

データの可変的かつインテリジェントな割り当てにより、画質を犠牲にすることなく、非常に効率的な圧縮プロセスが可能になります。WaveOneはファイルサイズを最大半分まで削減できると謳っており、複雑なシーンではより大きな効果が得られます。何億回も（あるいは一度に100万人に）動画を配信する場合、たとえ数パーセントでも大きな効果は積み重なり、これほどの規模の削減は言うまでもありません。帯域幅のコストは以前ほど高くはありませんが、それでも無料ではありません。

画像を理解する（あるいは伝える）ことで、コーデックはコンテンツの種類を認識できます。ビデオ通話では、もちろん可能な限り顔を優先する必要がありますが、ゲームストリーマーは細部を優先したい場合があります。一方、アニメーションでは、単色領域が広い領域におけるアーティファクトを最小限に抑えるために、さらに別のアプローチが必要になります。これらはすべて、AIを活用した圧縮方式によってリアルタイムで実行できます。

消費者向けテクノロジー以外にも影響がある。自動運転車は、コンポーネント間または中央サーバーにビデオを送信することで、車両、歩行者、動物など、自律システムが重要と判断したものに焦点を当て、特徴のない空や遠くの木などに時間とビットを無駄にしないことで、時間を節約し、ビデオの品質を向上させることができる。

コンテンツ認識型のエンコードとデコードは、WaveOneが提供すると謳うメリットの中でも、おそらく最も汎用性が高く、理解しやすいものでしょう。しかし、Bourdev氏は、この手法は帯域幅の問題による中断に対してはるかに耐性が高いとも指摘しています。従来のビデオコーデックの欠点の一つとして、数ビットの欠落が全体の動作に支障をきたすことがあります。これがフレームのフリーズやグリッチの原因です。しかし、MLベースのデコードでは、保有するビット数に基づいて「最善の推測」を簡単に行うことができるため、帯域幅が突然制限されてもフリーズすることはなく、その間、画質が若干低下するだけで済みます。

これらの利点は素晴らしいように聞こえますが、前述のように、問題は「現状を改善できるか？」ではなく（もちろんできます）、「それらの改善を拡大できるか？」です。

「クールな新しいコーデックを作ろうという試みは、失敗に終わりがちだ」とBourdev氏は認めた。「その理由の一つはハードウェアアクセラレーションだ。たとえ世界最高のコーデックを開発したとしても、それを実行するハードウェアアクセラレータがなければ、運が悪いとしか言いようがない。優れたアルゴリズムが必要なだけでなく、エッジやクラウドなど、様々なデバイスでスケーラブルに実行できることも必要だ。」

だからこそ、最新世代のデバイスに搭載されている特別なAIコアが非常に重要なのです。これは、数ミリ秒単位で新しい用途に適応できるハードウェアアクセラレーションです。WaveOneは長年にわたり、これらのコア上で動作するビデオに特化した機械学習の開発に取り組んできました。H.26Xアクセラレータが長年行ってきた処理を、より高速かつはるかに柔軟に実行できるのです。

もちろん、「標準」の問題は依然として残っています。特定の企業独自のビデオ圧縮方式を採用する企業など存在するでしょうか？まあ、誰かがやらなければなりません！結局のところ、標準は石板に刻まれているわけではありません。そして、Bourdev氏とRippel氏が説明したように、彼らは実際に標準を採用しているのです。ただ、私たちが考えるような方法ではないというだけです。

かつて、ビデオにおける「標準」とは、アプリやデバイスが標準準拠のビデオを効率的かつ正確に処理できるように、厳密に定義されたソフトウェア方式に準拠することを意味していました。しかし、それが唯一の標準ではありません。WaveOneは、あらゆる側面を網羅した方式ではなく、機械学習とデプロイメントの両面で標準に準拠した実装です。

彼らは、TensorFlow、ONNX、AppleのCoreMLなど、主要なMLディストリビューションや開発パブリッシャーと互換性のあるプラットフォームを構築しています。一方、ビデオのエンコードとデコード用に実際に開発されたモデルは、エッジデバイスやクラウドデバイス上で他の高速化ソフトウェアと同様に動作します。AWSやAzureにデプロイしたり、ARMやIntelのコンピューティングモジュールを使ってローカルで実行したりといったことが可能です。

WaveOne は、主要な B2B イベントのすべての要件を満たす何かを実現しようとしているように思えます。つまり、顧客にとって目に見えない形で物事を改善し、変更なしで既存または今後のハードウェア上で実行し、コストをすぐに節約し (少なくとも潜在的には)、付加価値のために投資することもできます。

おそらくそれが、彼らがこれほど大規模なシードラウンドの資金調達に成功した理由だろう。Khosla Ventures が主導し、Vela Partners と Incubate Fund からそれぞれ 100 万ドル、さらに Omega Venture Partners から 65 万ドル、Blue Ivy から 35 万ドルを調達した 650 万ドルである。

現在、WaveOneはプレアルファ段階にあり、技術の実証は十分に行われているものの、本格的な製品はまだ構築されていない。リッペル氏によると、シードラウンドは技術のリスク軽減を目的としており、まだ多くの研究開発が残されているものの、コアとなる製品が機能することを実証したという。次にインフラストラクチャとAPIレイヤーの構築が予定されており、これは同社にとって全く異なるフェーズとなる。それでも、さらなる資金調達を行う前にテストを完了し、数社の顧客を獲得したいとリッペル氏は述べた。

ビデオ業界の未来は、ここ数十年とは大きく異なるものになるかもしれません。そして、それは非常に良い兆候かもしれません。WaveOneが研究段階から製品段階へと移行していくにつれ、今後さらに多くの情報を耳にすることになるでしょう。

Posted by Cemubo