拡散変換器はOpenAIのSoraの鍵であり、GenAIを覆すことになるだろう

拡散変換器はOpenAIのSoraの鍵であり、GenAIを覆すことになるだろう

OpenAI の Sora は、ビデオやインタラクティブな 3D 環境を即座に生成することができ、GenAI の最先端技術を示す注目すべきデモンストレーションであり、真のマイルストーンです。

しかし興味深いことに、それにつながったイノベーションの 1 つである、俗に拡散トランスフォーマーと呼ばれる AI モデル アーキテクチャは、何年も前に AI 研究の現場に登場しました。

この拡散トランスフォーマーは、AI スタートアップ企業 Stability AI の最新画像ジェネレーター Stable Diffusion 3.0 にも搭載されており、GenAI モデルをこれまで以上にスケールアップできるようにすることで、GenAI 分野に変革をもたらす準備が整っているようです。

ニューヨーク大学のコンピューターサイエンス教授であるサイニング・シェ氏は、2022年6月に拡散トランスフォーマーを生み出す研究プロジェクトを開始しました。シェ氏は、ピーブルズ氏がMetaのAI研究室でインターンをしていた時の指導教員で、現在はOpenAIでSoraの共同リーダーを務めるウィリアム・ピーブルズ氏とともに、機械学習における拡散トランスフォーマーという2つの概念を組み合わせて、拡散トランスフォーマーを開発しました。

OpenAI の DALL-E 3 を含む、最新の AI 搭載メディア ジェネレーターのほとんどは、拡散と呼ばれるプロセスを利用して、画像、ビデオ、音声、音楽、3D メッシュ、アートワークなどを出力します。

直感的なアイデアではないかもしれませんが、基本的には、メディア(例えば画像)にノイズを徐々に追加し、認識できなくなるまで続けます。これを繰り返して、ノイズの多いメディアのデータセットを構築します。拡散モデルはこれを学習することで、ノイズを徐々に減らし、目標の出力メディア(例えば新しい画像)に一歩ずつ近づいていく方法を学習します。

拡散モデルは通常、U-Netと呼ばれる「バックボーン」、つまり一種のエンジンを備えています。U-Netバックボーンは除去すべきノイズを推定することを学習し、その精度も優れています。しかし、U-Netは複雑で、特別に設計されたモジュールによって拡散パイプラインの速度が大幅に低下する可能性があります。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

幸いなことに、変圧器は U-Net の代わりとなり、その過程で効率とパフォーマンスの向上をもたらします。

OpenAI ソラ
SORAが生成した動画。画像提供: OpenAI

Transformerは複雑な推論タスクに最適なアーキテクチャであり、GPT-4、Gemini、ChatGPTなどのモデルに採用されています。Transformerには独自の特性がいくつかありますが、中でも最も特徴的なのは「Attention(注意)メカニズム」です。Transformerは、入力データ(拡散データの場合、画像ノイズ)ごとに、他のすべての入力(画像内の他のノイズ)の関連性を評価し、それらから出力(画像ノイズの推定値)を生成します。

アテンションメカニズムは、Transformerを他のモデルアーキテクチャよりもシンプルにするだけでなく、並列化も可能にします。言い換えれば、より大規模なTransformerモデルを、計算量を大幅に増加させながらも達成不可能ではない程度に学習させることが可能になります。

「トランスフォーマーが普及プロセスに貢献するのは、エンジンのアップグレードに似ています」と、謝氏はTechCrunchのメールインタビューで語った。「トランスフォーマーの導入は…スケーラビリティと有効性の飛躍的な向上を意味します。これは特にSoraのようなモデルで顕著です。Soraは膨大な量の動画データで学習し、広範なモデルパラメータを活用することで、大規模に適用された際にトランスフォーマーが持つ変革の可能性を示すことができます。」

Stable Diffusion 3 によって生成されました。画像クレジット: Stability AI

拡散トランスフォーマーのアイデアは以前から存在していたにもかかわらず、SoraやStable Diffusionのようなプロジェクトがそれを活用し始めるまでにはなぜ何年もかかったのでしょうか?Xie氏は、スケーラブルなバックボーンモデルの重要性が認識されたのは比較的最近になってからだと考えています。

「Soraチームは、このアプローチを大規模に活用することで、どれだけ多くのことを実現できるかを示すために、本当に全力を尽くしました」と彼は述べた。「彼らは、今後の拡散モデルではU-Netは時代遅れで、トランスフォーマー が主流になること を明確に示しました。」

Xie氏によると、拡散トランスフォーマーは、画像、動画、音声、あるいはその他のメディアを生成するモデルであっても、既存の拡散モデルと簡単に交換できるはずだという。拡散トランスフォーマーの現在の学習プロセスには、非効率性やパフォーマンスの低下が生じる可能性があるが、Xie氏は長期的にはこの問題に対処できると考えている

「肝心なのは、U-Netはもう忘れてトランスフォーマーに切り替えろということです。なぜなら、U-Netの方が高速で、動作も優れ、スケーラビリティも高いからです」と彼は述べた。「私は、コンテンツの理解と創造の領域を拡散トランスフォーマーの枠組みに統合することに興味を持っています。現状では、これらは理解の世界と創造の世界という、まるで二つの異なる世界のようです。私は、これらの側面が統合される未来を思い描いています。そして、この統合を実現するには、基盤となるアーキテクチャの標準化が必要であり、トランスフォーマーはその理想的な候補だと考えています。」

もし Sora と Stable Diffusion 3.0 が、拡散トランスフォーマーに期待されるもののプレビューだとしたら、私たちはワイルドな旅を体験することになるだろう。

カイル・ウィガーズは2025年6月までTechCrunchのAIエディターを務めていました。VentureBeatやDigital Trendsに加え、Android Police、Android Authority、Droid-Life、XDA-Developersといった様々なガジェットブログにも記事を寄稿しています。音楽療法士のパートナーとマンハッタンに在住。

バイオを見る