OpenAIのDALL-Eは文字通り何でも要求すればそれらしい画像を作成する

OpenAIのDALL-Eは文字通り何でも要求すればそれらしい画像を作成する

OpenAIの最新かつ奇妙でありながら魅力的な作品がDALL-Eです。簡単にまとめると「画像版GPT-3」と言えるでしょう。イラスト、写真、レンダリングなど、お好きな方法で、分かりやすく説明できるものなら何でも作成できます。「蝶ネクタイをした猫」から「チュチュを着た大根が犬を散歩させている」まで。ただし、ストックフォトやイラストの訃報記事を書くのはまだ早いでしょう。

いつものように、OpenAIによる発明の説明は非常に読みやすく、過度に技術的ではありません。しかし、少し文脈を理解する必要があります。

研究者たちがGPT-3を使って作ったのは、指示を与えると、記述内容のもっともらしいバージョンを生成しようとするAIでした。つまり、「森で魔女を見つけた子供のお話」と言うと、実際に物語を書こうとします。そしてもう一度ボタンを押すと、また別の形で物語を書きます。そして、それを何度も何度も繰り返します。

これらの試みの中には、他のものよりも優れたものもあれば、ほとんど意味が通じないものもあるでしょう。しかし、このAIはゴミのような文章や深刻な文法エラーを出力しないため、スタートアップ企業や研究者が現在検討しているように、様々なタスクに適しています。

DALL-E(DaliとWALL-Eを組み合わせたもの)は、この概念をさらに一歩進めています。テキストを画像に変換するAIエージェントは長年にわたり、成功の度合いは様々ですが着実に向上しています。この場合、エージェントはGPT-3が提供する言語理解とコンテキスト、そしてその基盤となる構造を用いて、プロンプトに一致する妥当な画像を作成します。

OpenAIは次のように述べています。

GPT-3は、言語を用いて大規模なニューラルネットワークに様々なテキスト生成タスクを実行させることを示しました。Image GPTは、同じタイプのニューラルネットワークを用いて高忠実度の画像を生成できることを示しました。私たちはこれらの研究結果を拡張し、言語による視覚概念の操作が今や実現可能になったことを示します。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

彼らが言いたいのは、この種の画像生成器は、単に何をすべきかを指示するだけで、自然に操作できるということです。確かに、その内部構造を詳しく調べて色を表すトークンを見つけ出し、その経路を解読して活性化したり変化させたりすることはできます。まるで本物の脳のニューロンを刺激するようなものです。しかし、スタッフのイラストレーターに緑ではなく青のものを作ってほしいと頼むときには、そんなことはしないでしょう。「緑の車」ではなく「青い車」と言えば、彼らは理解してくれるのです。

DALL-Eも同様です。これらの指示を理解し、深刻な失敗をすることはめったにありません。ただし、100回、あるいは1000回試行した中で最良の結果を見ても、生成される画像の多くは少々…ずれていることが多いと言わざるを得ません。これについては後ほど説明します。

OpenAIの記事では、研究者たちは、システムに同じアイデアの小さなバリエーションを実行させる方法をインタラクティブな例を豊富に示しており、その結果は妥当で、多くの場合非常に優れているとしています。しかし、DALL-Eがいくつかの点で脆弱であると認めているように、これらのシステムは非常に脆弱であり、「五角形の緑の革の財布」と言えば期待通りの結果が返されるかもしれませんが、「五角形の青いスエードの財布」と言えば悪夢のような結果が返される可能性があります。なぜでしょうか?これらのシステムのブラックボックス的な性質を考えると、その理由は一概には言えません。

画像クレジット: OpenAI

しかし、DALL-Eはそのような変化に対して驚くほど堅牢で、要求されたものはほぼ何でも確実に生成します。ワカモレのトーラス、シマウマの球体、小さな赤いブロックの上に置かれた大きな青いブロック、幸せなカピバラの正面図、悲しそうなカピバラの等角投影図など、実に様々です。投稿にあるすべての例を自由に試すことができます。

また、意図していなかったものの有用な動作もいくつか示しました。例えば、同じ(存在しない)猫のスケッチを複数枚(上はオリジナル、下はスケッチ)描くように指示するなど、直感的なロジックを用いて要求を理解していました。特別なコーディングは行われていません。「このような能力が発現するとは予想しておらず、ニューラルネットワークや学習手順にそれを促すような変更は行っていません。」これは問題ありません。

GPT-3が失敗する可能性のあるいくつかの例を以下に示します。

興味深いことに、OpenAIのもう一つの新しいシステムであるCLIPがDALL-Eと併用され、問題の画像を理解・ランク付けしました。ただし、こちらは少し技術的で理解しにくいです。CLIPについては、こちらをご覧ください。

この機能の意味は多岐にわたるため、ここでは詳しく触れません。OpenAIでさえ、次のように述べています。

今後、私たちは、DALL·E のようなモデルが、特定の作業プロセスや職業への経済的影響、モデル出力のバイアスの可能性、このテクノロジーが暗示する長期的な倫理的課題などの社会的問題とどのように関係するかを分析する予定です。

現時点では、GPT-3 と同様に、このテクノロジーは素晴らしいものですが、明確な予測を立てるのは困難です。

特筆すべきは、生成されるもののうち、真に「最終版」と言えるものはほとんどないということです。つまり、最近書いたもののリード画像を作るように指示しても、修正なしで使えるものが出てくるとは期待できません。少し調べただけでも、AI特有の奇妙な点がいくつも見つかります(ジャネル・シェーンの得意技です)。こうした粗削りな部分はいずれ修正されるでしょうが、GPT-3テキストを人間の文章の代わりに編集せずにそのまま送信できないのと同じように、安全とは程遠いものです。

次のコレクションが示すように、多数を生成し、上位のいくつかを選択することが役立ちます。

AI-generated illustrations of radishes walking dogs.
生成された合計Xのうち上位8つ。Xは右に行くほど大きくなります。画像クレジット:OpenAI

これはOpenAIの功績を軽視するものではありません。これは非常に興味深く、力強い取り組みであり、同社の他のプロジェクトと同様に、近いうちにさらに素晴らしく興味深いものへと発展していくことは間違いありません。

OthersideAIが260万ドルを調達、GPT-3があなたのメールを自動作成