昨年初め、OpenAIはDALL-E(WALL-EとDaliを組み合わせた造語)と呼ばれる驚異的な新AIモデルを発表しました。このモデルは、ほぼあらゆるものを、ほぼあらゆるスタイルで描くことができます。しかし、その成果は壁に飾りたくなるようなものではありませんでした。そして今、DALL-E 2がリリースされ、前モデルよりもはるかに優れた性能を発揮します。実際、恐ろしいほど優れています。しかし、この新機能には、悪用を防ぐための新たな制限が課されています。
DALL-Eについては以前の記事で詳しく説明しましたが、要点は「クマが自転車に乗ってショッピングモールを通り抜け、その横に猫が独立宣言書を盗んでいる写真」といった、かなり複雑な指示にも対応できるということです。DALL-Eは喜んで指示に従い、数百通りの出力の中からユーザーの基準に最も合致すると思われるものを見つけ出します。
DALL-E 2は基本的に同じことを行い、テキストプロンプトを驚くほど正確な画像に変換します。しかし、いくつかの新しいトリックを学習しました。
まず、DALL-E 2は、本来の性能をはるかに凌駕しています。DALL-E 2から出力される画像は、サイズも画質も数倍も大きく、より精細です。より多くの画像を生成するにもかかわらず、処理速度は実際にはより高速です。つまり、ユーザーが待ち時間として許容できる数秒の間に、より多くのバリエーションを生成できるということです。

この改善の一部は、拡散モデルへの切り替えによるものです。拡散モデルとは、純粋なノイズから始めて時間をかけて画像を洗練させ、要求された画像に少しずつ近づけていく画像生成手法で、最終的にはノイズがなくなるまで繰り返します。しかし、このモデルは単に小型化され、より効率的なものでもあると、開発に携わったエンジニアの何人かは私に話してくれました。
次に、DALL-Eは「インペインティング」と呼ばれる技術で、画像内の特定の領域をスマートに置き換える機能を備えています。例えば、自宅の写真があるのですが、テーブルの上に汚れた食器がいくつか置いてあるとします。その領域を選択し、代わりに何が欲しいか説明するだけです。「何もない木製のテーブル」でも「食器のないテーブル」でも、理にかなっているように思える表現で構いません。数秒で、モデルがその指示に対する複数の解釈を示し、その中から最も見栄えの良いものを選ぶことができます。
Photoshopの「コンテキスト認識塗りつぶし」という似たような機能に馴染みがあるかもしれません。しかし、このツールは、同じものを複数使って空間を埋めるという用途が主です。例えば、晴れた空に鳥を1羽入れ替えたいけれど、クローンスタンプは使いたくない、といった場合です。DALL-E 2の機能ははるかに優れており、新しいものを作り出すことができます。例えば、別の種類の鳥や雲、あるいはテーブルの場合は花瓶やこぼれたケチャップの瓶などです。この機能の便利な用途は容易に想像できます。
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日
注目すべきは、モデルがシーンの他の部分を認識しているため、適切な照明や影、適切なマテリアルの選択などを取り入れる点です。ここで「認識」という言葉を厳密に使用しています。DALL-Eがこれらの概念を内部的にどのように表現しているかは、開発者でさえも誰も知りません。しかし、この目的にとって重要なのは、結果がDALL-Eが何らかの形で理解していることを示唆しているということです。

3つ目の新機能は「バリエーション」です。これは十分に正確です。システムにサンプル画像を与えると、非常に近いものから印象派風のリメイクまで、好きなだけバリエーションを生成します。さらに2枚目の画像を与えると、それぞれの最も顕著な特徴を組み合わせ、いわば相互に作用するのです。私が見せてもらったデモでは、DALL-E 2がオリジナル画像に基づいてストリートミューラルを生成していましたが、どの画像がオリジナルかは一見して明らかだったとしても、アーティストのスタイルをほぼ正確に捉えていました。
これまで見てきた他のジェネレーターと比べて、これらの画像の品質は言葉では言い表せないほどです。AI生成画像には期待されるような「特徴」がほぼ必ずありますが、それらはそれほど目立ちません。画像の残りの部分は、他のジェネレーターが生成した最高の画像よりもはるかに優れています。
ほとんど何でも
DALL-E 2は「ほぼ何でも」描けると以前書きましたが、実際には、このモデルがどんなものでも説得力を持って描けることを妨げるような技術的な制限はありません。しかし、OpenAIはディープフェイクやAI生成画像・コンテンツの悪用によるリスクを認識しており、最新モデルにはいくつかの制限を追加しました。
DALL-E 2は現在、ホスト型プラットフォーム上で動作しています。これは招待制のテスト環境であり、開発者は制御された環境で試用できます。そのため、モデルに表示されるすべてのプロンプトは、コンテンツポリシーに違反していないか評価されます。コンテンツポリシーでは、DALL-E 2の説明にあるように、「G指定ではない画像」が禁止されています。
つまり、ヘイト、ハラスメント、暴力、自傷行為、露骨または「衝撃的な」画像、違法行為、欺瞞(例:フェイクニュース)、政治的行為者や状況、医療または病気関連の画像、一般的なスパムなどは対象外です。実際、違反となる画像はトレーニングセットから除外されているため、これらの多くは不可能です。DALL-E 2はベレー帽をかぶった柴犬の姿は再現できますが、ミサイル攻撃が何なのかさえ理解していません。
プロンプトの評価に加え、結果として得られる画像はすべて(今のところ)人間の検査員によって審査されます。これは明らかにスケーラブルではありませんが、チームによるとこれは学習プロセスの一部だそうです。彼らは境界がどのように機能すべきか正確には分かっていないため、今のところプラットフォームは小規模でセルフホストのままです。
やがて、DALL-E 2 は OpenAI の他の機能のように呼び出せる API に変換される可能性が高いが、チームは補助輪を外す前にそれが賢明かどうか確かめたいと述べている。
DALL-E 2 についてさらに詳しく知り、いくつかの半インタラクティブな例をテストするには、OpenAI のブログ投稿をご覧ください。