画像生成の分野は急速に進化しています。MidjourneyやStable Diffusionといった人気ツールで使用されている拡散モデルは、現状では最高のもののように思えるかもしれませんが、常に新しいものが登場します。OpenAIは「一貫性モデル」でその先を行くかもしれません。このモデルは、既にDALL-Eのようなツールよりも桁違いに高速に単純なタスクを実行できます。
この論文は先月プレプリントとしてオンライン公開されましたが、OpenAIがメジャーリリースで用意しているような控えめな宣伝は行われませんでした。これは当然のことです。これはあくまで研究論文であり、非常に技術的な内容です。しかし、この初期段階の実験的手法による結果は、注目に値するほど興味深いものです。
一貫性モデルは、特に説明が簡単ではありませんが、拡散モデルと比較すると理解しやすくなります。
拡散法では、モデルはノイズのみで構成された開始画像から徐々にノイズを減算する方法を学習し、目標とする画像に段階的に近づけていきます。このアプローチは、今日最も優れたAI画像生成を可能にしましたが、基本的に良好な結果を得るには10ステップから数千ステップに及ぶ処理を必要とします。つまり、運用コストが高く、また、リアルタイムアプリケーションには実用的ではないほど遅いのです。
一貫性モデルの目標は、1ステップ、あるいは多くても2ステップの計算で適切な結果が得られるものを作ることでした。これを実現するために、モデルは拡散モデルのように画像破壊プロセスを観察するように訓練されますが、同時に、あらゆるレベルの不明瞭度(つまり、情報が少し欠けている、あるいはかなり欠けている)の画像から、たった1ステップで完全なソース画像を生成するように学習します。
しかし、これは現状をごく簡単に説明したものに過ぎないことを付け加えておきます。これは以下のような論文です。

結果として得られる画像は驚くほど素晴らしいものではありません。多くの画像は、良い画像と呼べるほどのものはほとんどありません。しかし重要なのは、それらが100や1000のステップではなく、たった1つのステップで生成されたということです。さらに、この一貫性モデルは、カラー化、アップスケール、スケッチの解釈、塗りつぶしなど、多様なタスクに汎用化されており、これらも1つのステップで処理されます(ただし、多くの場合、1秒ほど改善されます)。
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日

まず、これが重要なのは、機械学習研究の一般的なパターンとして、誰かが技術を確立し、別の誰かがそれをより良く機能させる方法を見つけ、その後、別の人が時間をかけて計算量を増やしながら調整することで、当初の予測よりも大幅に優れた結果を生み出す、という点です。現代の拡散モデルとChatGPTは、どちらもほぼ同じようにして生まれました。これは自己制限的なプロセスです。なぜなら、実際には特定のタスクに割り当てる計算量には限りがあるからです。
しかし、次に起こるのは、以前のモデルと同じことを、最初ははるかに劣るが、はるかに効率的に実行できる、より効率的な新しい手法です。一貫性モデルはこれを実証していますが、まだ初期段階であるため、拡散モデルと直接比較することはできません。
現代の画像生成AIの中核を成す技術、拡散の簡単な歴史
しかし、これは別のレベルで重要です。なぜなら、現時点で世界で最も影響力のある AI 研究機関である OpenAI が、普及の先にある次世代のユースケースを積極的に検討していることを示しているからです。
確かに、GPUクラスターを使って1~2分かけて1,500回の反復処理を実行したい場合、拡散モデルから驚くべき結果を得ることができます。しかし、誰かのスマートフォンでバッテリーを消耗させずに画像ジェネレーターを実行したり、例えばライブチャットインターフェースで超高速な結果を提供したりしたい場合はどうでしょうか?拡散モデルは単純にこの用途には適さないツールであり、OpenAIの研究者たちは適切なツールを積極的に探しています。その中には、この分野で著名なイリヤ・スツケバー氏も含まれています。もちろん、ヤン・ソン氏、プラフルラ・ダリワル氏、マーク・チェン氏といった他の著者の貢献を軽視するわけではありません。
一貫性モデルがOpenAIにとって次の大きなステップとなるのか、それとも単なる矢筒の矢の一つに過ぎないのか(将来はマルチモーダルとマルチモデルの両方が主流になることはほぼ確実です)、それは研究の成果次第です。私は詳細を問い合わせており、研究者から回答が得られ次第、この記事を更新します。
デヴィン・コールドウェイはシアトルを拠点とする作家兼写真家です。
彼の個人ウェブサイトは coldewey.cc です。
バイオを見る