Rollは生成AIを使ってドリーショットなどを再現したいと考えている

Rollは生成AIを使ってドリーショットなどを再現したいと考えている

最近までBoxの製品管理担当副社長を務めていたファイザン・ブズダー氏を知る人は、この起業家といえば、おそらくニュースルーム(当サイトも含む)で人気のデジタルワークスペース・プラットフォーム、Convoを思い浮かべるだろう。しかし、電子工学のバックグラウンドを持つブズダー氏は、長年にわたり映像と視覚効果に強い関心を抱いてきた。

「私は生涯を通じてビデオと写真に情熱を注いでおり、長年自分でビデオを制作してきましたが、ビデオ制作はここ数十年、特にビデオ編集のような時間のかかる作業において、ほとんど革新がなく、ほとんど手作業のままになっていることに気づきました」とブズダー氏はメールで語った。「一方、iPhoneのカメラとセンサー技術はここ数年で飛躍的に向上し、画質はデジタル一眼レフカメラとほぼ同等になっていることに気づきました。」

そこで、Box在籍中、ブズダー氏は、ますます人気が高まっているメディアである動画と、AIや機械学習のイノベーションを組み合わせ、動画撮影と編集体験の向上を試みることにしました。ブズダー氏は、Twitter在籍中にサイトのライブストリーミング機能を支えるインフラ構築に貢献した動画エンジニアのアディール・アバス氏を起用し、サジ・カーン氏、ファハド・ヤクブ氏、そしてBox幹部のミシェル・オー氏と共に、テクノロジーを活用した動画制作の限界を探求しました。 

Rollはその結果生まれたアプリです。iOS向けの新しいアプリで、ボケ効果、マルチカムショット、モーショングラフィックス、そしておそらく私にとって最も興味深いのは、「AIシミュレーション」によるスライダー、ドリー、ジブといった機能を備えています。

ロール
画像クレジット: Roll

私たちの使命は、高品質なビデオ制作の世界に革命を起こし、ビデオコンテンツ制作の新たなスタンダードとなることです」とバズダー氏は続けた。「素晴らしいビデオを作るには、機材や設備、その使い方の習得、編集ソフトなど、莫大な初期投資が必要です。私たちはそれらすべてをなくします。」

Rollは「プロシューマー」市場(インフルエンサーやポッドキャスター、そして独自のマーケティング資料を作成する企業など)をターゲットとしており、iPhoneアプリとWebアプリの2つの製品で構成されています。iPhoneアプリは動画を撮影・録画し、Rollのクラウドに自動的にアップロードして保存・処理します。Webアプリでは、コンテンツクリエイター1人またはチームが映像をプレビュー、アクセス、共有、ダウンロード、編集することができます。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

もちろん、動画アプリは山ほどあります。では、Rollが他と違う点は何でしょうか?まず、このアプリは、リモートビデオインタビュー、ビデオポッドキャスト、顧客の声 など、ほとんどのカメラアプリにはない用途を想定しているとBuzdar氏は言います。Zoom、Microsoft Teams、Google Meetはある程度これらのニーズを満たしていますが、Buzdar氏は、これらは「高品質」な動画制作向けに設計されていないと主張しています。

Rollは、多くのリアルタイムエフェクトを採用することで、(一見すると)他の多くの動画撮影アプリよりも幅広いポストプロダクションの選択肢を提供しています。例えば、RollはHEVC規格で録画するため、同じファイルサイズで約2倍のビットレートと高画質を実現します。また、Rollは最大2つのカメラショット(広角ショットとクローズアップショット)を同時に録画・処理できるため、実質的に「マルチカメラ」視点の動画を作成できます。

ロール
Roll編集インターフェース。画像クレジット: Roll

確かに、マルチカム機能は特にユニークなものではありません。Rollは、マルチカム機能を提供する最初のアプリではありません。しかし、Buzdar氏によると、その魔法は後処理にあるとのことです。Rollは生成AIを活用して3D空間に部屋を再現し、コンテンツクリエイターがビデオゲームのような仮想カメラを動かし、ドリーやクレーンを使って左右にパンするなどの動きをシミュレートできるようにします。 

「今日、生成AIは、偽のコンテンツを空から作り出すものと捉えられがちです」とバズダー氏は述べた。「それは私たちの理念ではありません。私たちは偽のピクセル、人物、シーンを生成することはありません。生成AIは純粋に生産性向上のためのツールとして活用しています。より高品質な動画制作へのアクセスを民主化したいのです。」

バズダー氏は、ロールのAIは、部屋に座っている人物とは無関係に奥行きと形状を測定するデータを用いて、シーン内の3D奥行きを理解するようにトレーニングされていると説明した。ロールは当初、学術界でベンチマークによく使用されるオープンソースのデータセットを用いてアルゴリズムのトレーニングを開始したが、その後、社内で2万2000件以上のビデオ通話を記録し、独自の豊富なデータベースを構築した。

結果は悪くない ― 少なくともBuzdarが見せてくれたデモ映像では。RollのAI生成によるパン映像の一部は、不気味の谷現象、つまり 仮想カメラが回転するにつれて背景の物体が不自然に歪んでしまう現象に見舞われている。しかし、短いシーンであればAIの効果は十分に説得力があり、退屈なリモートインタビューになりがちなシーンに、目を引く要素を加えている。 

私たちはこの分野についてかなり研究してきましたが、iPhoneのセンサーデータとクラウド上の大規模なAIモデルを組み合わせるという、私たちと同じ方法でAIを活用している企業は他に見たことがありません」とバズダー氏は述べた。「私たちの技術は、ユーザーが望むあらゆる視覚効果をシミュレートするための基盤機能を提供します。」

ロール
Rollによる通話録音。画像提供: Roll

視覚効果というと少し無理が​​あるように聞こえるかもしれません。しかし、Rollにはよりリアルなアルゴリズムの仕掛けが隠されています。Rollは動画を録画する際に、録画条件や照明条件、カメラから被写体までの距離、被写体の顔や体の位置など、動画制作プロセスで使用するメタデータを収集します。このメタデータは、スマートフォンのカメラやセンサーを自動調整するだけでなく、構図や照明に関するフィードバックや指示を提供するためにも使用されます。

市場に出回っている他のいくつかの「AI対応」モバイル動画編集ソフトと同様に、Rollもメタデータを活用して、編集クラウド内で完成度の高いマルチカメラリールを作成します。手動編集は不要です。(ユーザーは必要に応じてカメラアングルを変更・調整したり、カメラの動きや視覚効果を追加したりすることも可能です。)近い将来、RollはTikTok、YouTube、Instagramなどのソーシャルメディアに、適切な解像度とアスペクト比で直接公開できるようになる予定です。

「今日のビデオ制作は、多くのハードウェアとソフトウェアを必要とします」とブズダー氏は述べた。「ビデオファイルとオーディオファイルがソフトウェア間を移動するたびに、コンテキストが失われ、ただの『ダム』ファイルとして扱われてしまいます。私たちはビデオ制作の『スタック』全体を根本的にゼロから再構築しました。従来のソフトウェアの境界を越え、AIを適用することで、リモートビデオ制作ワークフロー全体を垂直統合・自動化し、キャプチャから公開までの革新的なエクスペリエンスを提供します。」

では、Rollはどのように収益を上げようとしているのだろうか?同社はこれまで、従来のベンチャーキャピタルから資金を調達してきた。バズダー氏は具体的な資金源については明らかにしなかった。しかし、収益創出という点では、Rollが最終的に企業のニーズに応えるまでに成長し、特に社内のマーケティングチームやビデオチームといった、Rollのサービスに対して何らかの料金を支払う企業のニーズに応えることを期待している。 

「ビデオ制作はクラウドによる破壊的変化の波に乗ろうとしています」とバズダー氏は述べた。「ファイルサイズが大きく、処理が複雑で、複数人による編集とレビューサイクルが必要となるといった特性から、ビデオ制作はスケーラブルなストレージ、AI、コンピューティング、リアルタイムの共有とコラボレーションといったクラウドコンピューティングの飛躍的なメリットを享受するのに最適な分野です。」

確かにその通りだ。Rollが破壊的イノベーションを起こすかどうかは、時が経てば分かるだろう。