AIの世界は、DALL-E 2があらゆるものを描画・ペイント・想像できるという驚異的な能力にどう対処すべきか、いまだ模索中です…しかし、同様の研究に取り組んでいるのはOpenAIだけではありません。Google Researchは、開発中の同様のモデルを急いで公開しました。同社によれば、このモデルはさらに優れているとのことです。
Imagen (分かりますか?) は、大規模な変換言語モデルに基づいて構築された、テキストから画像への拡散ベースのジェネレーターです。では、ゆっくり時間をかけて、簡単に説明しましょう。
テキストから画像へのモデルは、「自転車に乗った犬」のようなテキスト入力を受け取り、対応する画像を生成します。これは何年も前から行われてきましたが、最近では品質とアクセシビリティの面で大きな飛躍が見られました。
その一つが拡散技術です。これは基本的に、純粋なノイズ画像から始めて、モデルがこれ以上自転車に乗った犬らしく見えるようにすることはできないと判断するまで、少しずつ微調整していく手法です。これは、最初の推測で滑稽なほど間違った結果を出す可能性のある、あるいは簡単に誤った結果になってしまう可能性のある、上から下へのジェネレーターによる改良点です。
もう 1 つの部分は、トランスフォーマー アプローチを使用した大規模な言語モデルによる言語理解の向上です。その技術的な側面についてはここでは説明しません (また、説明できません)。しかし、この技術とその他の最近の進歩により、GPT-3 などの説得力のある言語モデルが生まれました。

Imagenはまず小さな画像(64×64ピクセル)を生成し、2回の「超解像」処理を施して1024×1024ピクセルに拡大します。これは通常のアップスケーリングとは異なり、AIによる超解像処理は元の画像をベースに、縮小された画像と調和する新たなディテールを生成します。
例えば、自転車に乗った犬がいて、最初の画像では犬の目の幅が 3 ピクセルだとします。これでは表現の余地があまりありません! しかし、2 番目の画像では幅が 12 ピクセルになっています。これに必要なディテールはどこから来るのでしょうか。AI は犬の目がどのようなものかわかっているので、描画しながらディテールを生成します。次に、目の描画が終わると、今度は幅が 48 ピクセルで同じことが繰り返されます。しかし、AI が犬の目の 48 ピクセルを、いわば魔法の袋から取り出す必要はまったくありません。多くのアーティストと同様に、AI は下書きに相当するものから始めて、習作で埋め尽くし、最終的なキャンバスで本格的に作業に取り組んだのです。
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日
これは前例のないことではありません。実際、AIモデルを扱うアーティストたちは既にこの手法を用いて、AIが一度に処理できるよりもはるかに大きな作品を制作しています。キャンバスを複数の部分に分割し、それぞれを個別に超解像処理すれば、はるかに大きく、より精巧なディテールを持つ作品が完成します。しかも、これを繰り返し行うことも可能です。私が知るあるアーティストの興味深い例をご紹介します。
以前投稿した画像はなんと24576 x 11264ピクセル。アップスケーリングはしていません。というか、@letsenhance_ioの制限をはるかに超えてしまいました。😥
この画像は私が「第 3 世代」と呼んでいるもので (しゃれです)、すでに一度再生成された以前の画像から 420 スライスが再生成されています。🧵2/10 pic.twitter.com/QG2ZcccQma
— dilkROM Glitches (@dilkROMGlitches) 2022年5月17日
Googleの研究者たちは、Imagenの進歩は複数あると主張しています。テキストエンコード部分には既存のテキストモデルを使用でき、その品質は視覚的な忠実度を高めることよりも重要だと述べています。これは直感的にも納得できます。なぜなら、無意味な内容を詳細に描写するよりも、求めているものを正確に描写するやや詳細度の低い画像の方がはるかに劣るからです。
例えば、Imagenを説明する論文では、ImagenとDALL-E 2による「パンダがラテアートを作る」という実験結果を比較しています。DALL-E 2の画像はすべてパンダのラテアートですが、Imagenの画像のほとんどはパンダがラテアートを作っています。(どちらの画像も宇宙飛行士が馬に乗っている様子を再現することはできず、すべての試行で逆の結果が得られました。これは現在開発中のものです。)

Googleのテストでは、Imagenは人間による評価において、精度と忠実度の両方で優れた結果を示しました。これはもちろん主観的な要素が強いですが、これまで他の画像を大きく凌駕すると考えられていたDALL-E 2の知覚品質に匹敵するほどの優れた結果が出たのは、実に印象的です。ただし、Imagenはかなり優れているものの、これらの画像(どのジェネレーターから生成されたものでも)は、ざっと見ただけで、生成された画像だと気付いたり、深刻な疑念を抱いたりするでしょう。
しかし、OpenAIはいくつかの点でGoogleより一歩か二歩先を進んでいます。DALL-E 2は単なる研究論文ではありません。前身であるGPT-2やGPT-3と同様に、現在も人々が利用しているプライベートベータ版です。皮肉なことに、「オープン」を社名に冠するこの企業は、テキスト画像変換研究の製品化に注力している一方で、莫大な利益を上げているインターネットの巨人Googleは、まだその試みに取り組んでいません。
OpenAIの新しいDALL-Eモデルは、あらゆるものを描画できるが、以前よりも大きく、より良く、より速く描画できる。
これは、DALL-E 2の研究者が事前にトレーニングデータセットをキュレートし、独自のガイドラインに違反する可能性のあるコンテンツを削除するという選択からも明らかです。このモデルは、たとえNSFWコンテンツを作成しようとしたとしても、NSFWコンテンツを作成することは不可能でした。しかし、Googleのチームは、不適切なコンテンツが含まれていることが知られている大規模なデータセットを使用しました。Imagenのウェブサイトにある「限界と社会への影響」に関する洞察に満ちたセクションで、研究者たちは次のように記しています。
テキスト画像変換モデルのダウンストリームアプリケーションは多岐にわたり、社会に複雑な影響を与える可能性があります。悪用される可能性のあるリスクは、コードとデモの責任あるオープンソース化に関する懸念を引き起こします。現時点では、コードと公開デモを公開しないことを決定しました。
テキスト画像変換モデルのデータ要件により、研究者は大規模で、ほとんどがキュレーションされていないウェブスクレイピングされたデータセットに大きく依存してきました。このアプローチは近年のアルゴリズムの急速な進歩を可能にしましたが、この種のデータセットはしばしば社会的ステレオタイプ、抑圧的な視点、そして疎外されたアイデンティティグループに対する侮辱的、あるいは有害な連想を反映しています。トレーニングデータの一部は、ポルノ画像や有害な言葉遣いなどのノイズや望ましくないコンテンツを除去するためにフィルタリングされていますが、ポルノ画像、人種差別的な中傷、有害な社会的ステレオタイプなど、幅広い不適切なコンテンツが含まれていることが知られているLAION-400Mデータセットも利用しました。Imagenは、キュレーションされていないウェブ規模のデータでトレーニングされたテキストエンコーダーに依存しているため、大規模言語モデルの社会的バイアスと限界を受け継いでいます。そのため、Imagenが有害なステレオタイプや表現をエンコードしているリスクがあり、さらなる安全対策を講じない限りImagenを一般公開しないという決定に至りました。
Googleは自社のAIが政治的に正しくないかもしれないと懸念している、と批判する人もいるかもしれないが、それは不公平で近視眼的な見方だ。AIモデルの良し悪しは、学習に使用したデータの品質に左右される。そして、数百万枚の画像や数十億語のデータセットを収集する際に、スクレイパーが拾い上げる非常に厄介なデータを除去するのに必要な時間と労力を、すべてのチームが費やせるわけではない。
こうしたバイアスは研究プロセスで明らかになるはずであり、システムの仕組みを明らかにし、こうしたバイアスやその他の限界を特定するための自由な実験の場を提供します。そうでなければ、AIが黒人によくある髪型(子供なら誰でも描ける髪型)を描けないことを、どうやって知ることができるでしょうか?あるいは、職場環境に関する記事を書くように指示されたとき、AIは必ず上司を男性として描くでしょうか?これらのケースでは、AIモデルは完璧に、そして設計通りに機能しています。つまり、トレーニング対象のメディアに蔓延するバイアスをうまく学習したのです。人間と全く同じです!
しかし、体系的な偏見をアンラーニングすることは多くの人間にとって生涯にわたるプロジェクトである一方、AIにとっては容易であり、その作成者はそもそもAIの不適切な行動の原因となったコンテンツを削除できます。もしかしたら、いつかAIが50年代の人種差別的・性差別的な評論家のようなスタイルで文章を書く必要が出てくるかもしれません。しかし、現時点では、そのようなデータを含めることのメリットは小さく、リスクは大きいのです。
いずれにせよ、Imagen は他のロボットと同様にまだ実験段階にあり、厳密に人間の監視下での使用以外での使用には適していません。Google がその機能をより利用しやすくするようになれば、その仕組みや理由についてより詳しく知ることができるでしょう。
大規模なAI研究室がモデルのオープンソース化を拒否した場合、コミュニティが介入する