現代の画像生成AIの中核を成す技術、拡散の簡単な歴史

現代の画像生成AIの中核を成す技術、拡散の簡単な歴史

テキスト画像変換AIは今年、技術の進歩によりAIシステムが作成できるアートの忠実度が大幅に向上したことで爆発的に成長しました。Stable DiffusionやOpenAIのDALL-E 2といったシステムは物議を醸す一方で、DeviantArtやCanvaといったプラットフォームでは、クリエイティブツールの強化、ブランディングのパーソナライズ、さらには新製品のアイデア創出に活用されています。

しかし、これらのシステムの中核を成す技術は、芸術作品の創造をはるかに超える可能性を秘めています。拡散と呼ばれるこの技術は、音楽の制作、DNA配列の合成、さらには新薬の発見にも、大胆な研究グループによって活用されています。

では、拡散とは一体何なのでしょうか?そして、なぜそれがこれまでの最先端技術をはるかに凌駕するほどの飛躍を遂げたのでしょうか?年末を迎えるにあたり、拡散の起源と、それがどのように進化を遂げ、今日の大きな影響力を持つようになったのかを振り返ってみるのは良いことです。拡散の歴史はまだ終わっていません。技術は月を追うごとに改良されてきましたが、特にここ1、2年は目覚ましい進歩を遂げました。

拡散の誕生

数年前に流行したディープフェイクアプリを覚えている方もいるかもしれません。これは、既存の画像や動画に人物のポートレートを挿入し、対象コンテンツの元の被写体をリアルに置き換えるアプリです。これらのアプリはAIを活用して、人物の顔、あるいは場合によっては全身をシーンに「挿入」し、一目見ただけで人を騙せるほどのリアルさで再現していました。

これらのアプリのほとんどは、生成的敵対ネットワーク(Generative Adversarial Networks、略してGAN)と呼ばれるAI技術を利用していました。GANは2つの部分で構成されています。ランダムデータから合成例(画像など)を生成するジェネレーターと、合成例とトレーニングデータセットの実際の例を区別しようとする識別器です。(典型的なGANトレーニングデータセットは、GANが最終的に捕捉すると予想される数百から数百万の例で構成されています。)ジェネレーターと識別器はそれぞれ能力が向上し、識別器は偶然に期待される50%以上の精度で合成例と実際の例を区別できなくなります。

安定拡散ハリーポッター
Stability Diffusionによって生成されたハリー・ポッターとホグワーツの砂像。画像クレジット: Stability AI

最高性能のGANは、例えば架空のアパートのスナップショットを作成できます。NVIDIAが数年前に開発したシステムであるStyleGANは、顔のポーズ、そばかす、髪の毛などの属性を学習することで、架空の人物の高解像度のヘッドショットを生成できます。画像生成以外にも、GANは3Dモデリング空間やベクタースケッチにも応用されており、ビデオクリップや音声、さらには楽曲内の楽器サンプルのループ出力にも適しています。

しかし実際には、GANはそのアーキテクチャに起因する多くの欠点を抱えていました。生成器モデルと識別器モデルの同時学習は本質的に不安定で、生成器が「崩壊」し、似たようなサンプルを大量に出力してしまうことがありました。また、GANは実行と学習に大量のデータと計算能力を必要とするため、スケールアップが困難でした。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

拡散を入力します。

拡散の仕組み

拡散は物理学から着想を得ました。拡散とは、物体が濃度の高い領域から低い領域へと移動する物理過程のことです。例えば、角砂糖がコーヒーに溶ける様子がそうです。コーヒーの中の砂糖の粒は、最初は液体の上部に集中していますが、徐々に分散していきます。

拡散システムは、特に非平衡熱力学における拡散から着想を得ており拡散過程は時間の経過とともにシステムのエントロピー、つまりランダム性を増加させます。気体を考えてみましょう。気体はランダムな動きによって最終的に空間全体を均一に満たすまで広がります。同様に、画像などのデータは、ランダムにノイズを加えることで均一な分布に変換できます。

拡散システムは、ノイズを追加することでデータの構造をゆっくりと破壊し、最終的にはノイズだけが残ります。

物理学において、拡散は自発的かつ不可逆的な現象です。コーヒーに拡散した砂糖は、元の立方体には戻りません。しかし、機械学習における拡散システムは、破壊されたデータを復元するための一種の「逆拡散」プロセスを学習し、ノイズからデータを回復する能力を獲得することを目指しています。

安定性AI OpenBioML
画像クレジット: OpenBioML

拡散システムは10年近く前から存在しています。しかし、OpenAIによる比較的最近のイノベーションであるCLIP(Contrastive Language-Image Pre-Trainingの略)により、日常的なアプリケーションにおいてはるかに実用的になりました。CLIPは、画像などのデータを分類し、与えられたテキストプロンプト(例:「花の咲く芝生の犬のスケッチ」)に分類される可能性に基づいて、拡散プロセスの各ステップに「スコア」を付けます。

最初は、データの大部分がノイズであるため、CLIPによるスコアは非常に低くなります。しかし、拡散システムがノイズからデータを再構築するにつれて、徐々にプロンプ​​トとの一致に近づいていきます。分かりやすい例えとして、彫刻されていない大理石があります。熟練の彫刻家が初心者にどこを彫るべきかを指示するように、CLIPは拡散システムをより高いスコアを与える画像へと導きます。

OpenAIは画像生成システムDALL-Eと同時にCLIPを導入しました。その後、CLIPはDALL-Eの後継であるDALL-E 2や、Stable Diffusionなどのオープンソースの代替システムにも採用されています。

拡散によって何ができるでしょうか?

では、CLIP誘導拡散モデルは何ができるのでしょうか?先ほども触れましたが、このモデルは芸術作品の生成に非常に優れています。フォトリアリスティックな作品から、スケッチ、デッサン、絵画など、あらゆるアーティストのスタイルに対応した作品まで、あらゆる作品が生成可能です。実際、CLIP誘導拡散モデルが学習データの一部を誤って繰り返してしまうという問題が指摘されています。

しかし、モデルたちの才能は、物議を醸すかもしれないが、それだけでは終わらない。

研究者たちは、ガイド付き拡散モデルを用いて新しい音楽を作曲する実験も行っています。ロンドンに拠点を置くスタートアップ企業「Stable Diffusion」を開発するStability AIから資金援助を受けている組織「Harmonai」は、数百時間分の既存曲を学習させることで音楽クリップを出力できる拡散ベースのモデルをリリースしました。最近では、開発者のセス・フォースグレン氏とヘイク・マルティロス氏が「Riffusion」という趣味のプロジェクトを立ち上げました。このプロジェクトでは、音声のスペクトログラム(視覚的表現)を巧みに学習させた拡散モデルを用いて楽曲を生成します。

音楽の領域を超えて、いくつかの研究室が拡散技術をバイオメディシンに応用し、新たな疾患治療法の発見を目指しています。MIT Tech Reviewが今月初めに報じたように、スタートアップ企業のGenerate Biomedicinesとワシントン大学のチームは、拡散ベースのモデルを訓練し、特定の特性と機能を持つタンパク質の設計図を作成しました。

これらのモデルはそれぞれ異なる方法で動作します。Generate Biomedicinesのモデルは、タンパク質を構成するアミノ酸鎖を解読することでノイズを加え、研究者が指定した制約に従ってランダムな鎖を組み合わせて新しいタンパク質を形成します。一方、ワシントン大学のモデルは、タンパク質の構造をランダムに組み合わされた状態から出発し、タンパク質構造を予測するように訓練された別のAIシステムから提供される、タンパク質の各部分がどのように組み合わさるべきかに関する情報を使用します。

画像クレジット: PASIEKA/SCIENCE PHOTO LIBRARY/Getty Images

彼らはすでに一定の成功を収めています。ワシントン大学のグループが設計したモデルは、血中カルシウム濃度を制御するホルモンである副甲状腺ホルモンに、既存の薬剤よりも効果的に結合できるタンパク質を見つけることができました。

一方、Stability AIが支援する機械学習ベースのアプローチを生化学に導入するOpenBioMLでは、研究者らが細胞タイプ特異的な制御DNA配列(生物内の特定の遺伝子の発現に影響を与える核酸分子の断片)を生成する「DNA-Diffusion」と呼ばれるシステムを開発しました。DNA-Diffusionは、計画通りに進めば、「X細胞タイプで遺伝子を最大発現レベルまで活性化する配列」や「肝臓と心臓では遺伝子を活性化するが、脳では活性化しない配列」といったテキスト指示から制御DNA配列を生成します。

拡散モデルの未来はどうなるのでしょうか?可能性は無限大と言えるでしょう。研究者たちは既に、動画生成、画像圧縮、音声合成などに拡散モデルを応用しています。これは、GANが拡散モデルに取って代わったように、拡散モデルが最終的により効率的で高性能な機械学習技術に置き換えられないことを意味するものではありません。しかし、拡散モデルが今注目されているのには理由があります。拡散モデルは汎用性に富んでいるからです。