バレンシアガ・ポープのようなバイラルミームが示唆するように、生成AIは近頃、その忠実度において非常に驚異的です。最新のシステムは、街のスカイラインからカフェまで、様々な風景を思い起こさせ、少なくとも一見すると驚くほどリアルな画像を作り出します。
しかし、皮肉なことに、テキストから画像を生成するAIモデルの長年の弱点の一つは、テキストです。最高のモデルでさえ、判読可能なロゴを含む画像を生成するのに苦労しており、ましてやテキスト、カリグラフィ、フォントなどを生成するのは至難の業です。
しかし、それは変わるかもしれない。
先週、Stability AIが支援する研究グループDeepFloydは、画像にテキストを「スマートに」統合できるテキスト画像変換モデル「DeepFloyd IF」を発表しました。10億枚以上の画像とテキストのデータセットで学習されたDeepFloyd IFは、少なくとも16GBのRAMを搭載したGPUを必要とし、「『Deep Floyd』と書かれたシャツを着たテディベア」といったプロンプトから、様々なスタイルの画像を作成できます。
DeepFloyd IFはオープンソースで提供されていますが、ライセンス上、商用利用は現時点では禁止されています。この制限は、生成AIアートモデルの法的地位が現在不安定であることに起因していると考えられます。複数の商用モデルベンダーは、アーティストから非難を浴びています。彼らは、ベンダーがアーティストの作品を無断でウェブからスクレイピングし、報酬を支払わずに利益を得ていると主張しています。
しかし、ジェネレーティブアートプラットフォームである NightCafe は、DeepFloyd IF への早期アクセスを許可されました。
NightCafeのCEO、アンガス・ラッセル氏は、TechCrunchに対し、DeepFloyd IFが他のテキスト画像変換モデルと異なる点と、それが生成AIにとって大きな前進となる理由について語った。
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日
ラッセル氏によると、DeepFloyd IFの設計は、GoogleのImagenモデル(公開されることはなかった)に大きく影響を受けているという。OpenAIのDALL-E 2やStable Diffusionといったモデルとは対照的に、DeepFloyd IFは複数の異なるプロセスをモジュール型アーキテクチャで積み重ねて画像を生成する。

一般的な拡散モデルでは、ほぼ完全にノイズで構成された開始画像から徐々にノイズを除去する方法を学習し、目標とするプロンプトに段階的に近づけていきます。DeepFloyd IFは拡散を一度ではなく複数回実行し、まず64×64ピクセルの画像を生成し、次にそれを256×256ピクセルに、そして最終的に1024×1024ピクセルに拡大します。
なぜ複数の拡散ステップが必要なのか?DeepFloyd IFはピクセルを直接操作します、とラッセル氏は説明した。拡散モデルは大部分が潜在拡散モデルであり、つまり本質的には、より多くのピクセルを表現するものの精度が低い低次元空間で動作することを意味する。
DeepFloyd IFとStable DiffusionやDALL-E 2などのモデルとのもう一つの重要な違いは、前者が大規模な言語モデルを用いてプロンプトをベクトル(基本データ構造)として理解・表現していることです。DeepFloyd IFのアーキテクチャに組み込まれた大規模な言語モデルのおかげで、このモデルは複雑なプロンプトや、プロンプトに記述された空間関係(例:「ピンクの球体の上に赤い立方体」)の理解に特に優れています。
「画像内で読みやすく正しいスペルのテキストを生成する能力も非常に優れており、複数の言語のプロンプトも理解できます」とラッセル氏は付け加えた。「これらの機能の中でも、画像内で読みやすいテキストを生成できる機能は、DeepFloyd IFを他のアルゴリズムから際立たせる最大のブレークスルーと言えるでしょう。」
DeepFloyd IFは画像内にテキストを非常にうまく生成できるため、ラッセル氏は、ロゴデザイン、ウェブデザイン、ポスター、看板、さらにはミームなど、ジェネレーティブアートの新たな可能性を切り開くと期待しています。このモデルは、手形などの生成能力も大幅に向上するはずだと彼は言います。また、他言語の指示を理解できるため、それらの言語でテキストを生成することも可能になるかもしれません。
「NightCafeユーザーがDeepFloyd IFに期待を寄せているのは、画像内にテキストを生成することで実現される可能性に特に魅力を感じているからです」とラッセル氏は述べた。「 Stable Diffusion XLは、テキスト生成において大きな進歩を遂げた最初のオープンソースアルゴリズムでした。1つか2つの単語を正確に生成できる場合もありますが、テキストが重要なユースケースではまだ十分ではありません。」
これは、DeepFloyd IFがテキスト画像変換モデルの聖杯であることを意味するものではありません。ラッセル氏は、ベースモデルでは一部の拡散モデルほど美的に美しい画像を生成できないと指摘していますが、微調整によって改善されると期待しています。

しかし、私にとってより大きな疑問は、DeepFloyd IF が、他の生成 AI と同等の欠陥をどの程度抱えているかということです。
ますます多くの研究が、Stable Diffusionを含む画像生成AIにおいて、人種、民族、性別、その他のステレオタイプ化が見られることを明らかにしています。今月、AIスタートアップのHugging Faceとライプツィヒ大学の研究者らは、Stable DiffusionやOpenAIのDALL-E 2などのモデルは、特に権威ある地位にある人物を描く際に、白人男性に見える人物画像を生成する傾向があることを実証するツールを公開しました。
DeepFloyd チームは、DeepFloyd IF に付随する細則にバイアスが含まれている可能性があることを高く評価しています。
他の言語を使用するコミュニティや文化からのテキストや画像は、十分に考慮されていない可能性があります。白人や西洋文化がデフォルトとして設定されることが多いため、これはモデル全体の出力に影響を及ぼします。
これに加えて、DeepFloyd IFは他のオープンソース生成モデルと同様に、ポルノ的な有名人のディープフェイクや暴力描写を生成するなど、悪用される可能性があります。DeepFloyd IFの公式ウェブサイトでは、DeepFloydチームは「カスタムフィルター」を使用して、透かし入りコンテンツ、「NSFW」コンテンツ、その他の不適切なコンテンツをトレーニングデータから削除したと述べています。
しかし、具体的にどのようなコンテンツが削除されたのか、そしてどれだけのコンテンツが削除されたのかは不明です。最終的には時が経てば分かるでしょう。