OpenAIの強力なテキスト画像変換AIシステム「DALL-E 2」は、漫画家、19世紀のダゲレオタイプ写真家、ストップモーションアニメーターなどのスタイルで写真を作成できます。しかし、重要な人工的な制限があります。それは、著名人や有害すぎると判断されるコンテンツを描写した画像の作成を阻止するフィルターです。
現在、DALL-E 2 のオープン ソース代替品がリリースされようとしていますが、この代替品にはそのようなコンテンツ フィルターはほとんど (あるいはまったく) ありません。
ロンドンとロスアルトスに拠点を置くスタートアップ企業Stability AIは今週、DALL-E 2に類似したシステム「Stable Diffusion」を、今後数週間以内に一般公開されるのに先立ち、1,000人強の研究者に公開すると発表しました。Stability AI、メディア制作会社RunwayML、ハイデルベルク大学の研究者、そしてEleutherAIとLAIONの研究グループが共同で開発したStable Diffusionは、ほとんどのハイエンドコンシューマー向けハードウェアで動作するように設計されており、任意のテキストプロンプトを入力すると、わずか数秒で512×512ピクセルの画像を生成できます。

「Stable Diffusionは、研究者だけでなく、近い将来には一般の人々も様々な条件下でこの手法を実行できるようにし、画像生成を民主化します」と、Stability AIのCEO兼創設者であるエマド・モスタケ氏はブログ記事に記している。「この手法を中心に生まれるオープンなエコシステムと、潜在空間の限界を真に探求するためのさらなるモデルに期待しています。」
しかし、DALL-E 2のようなシステムと比較して、Stable Diffusionには安全対策が不足しており、AIコミュニティにとって難しい倫理的問題を提起しています。たとえ結果が完全に納得できるものではないとしても、著名人の偽画像を作成することは、大きな問題を引き起こす可能性があります。また、システムの未加工のコンポーネントを自由に利用できるようにすることで、悪意のある人物がポルノや暴力描写といった主観的に不適切なコンテンツを学習させる可能性も残されています。
安定した拡散の創出
Stable Diffusionは、Mostaque氏の独創的なアイデアです。オックスフォード大学で数学とコンピュータサイエンスの修士号を取得したMostaque氏は、様々なヘッジファンドでアナリストを務めた後、より公共性の高い仕事へと転向しました。2019年には、貧困地域の人々のスマートフォンとインターネットアクセスのコスト削減を目指すプロジェクト、Symmitreeの共同設立者となりました。また2020年には、パンデミックに直面した政策立案者がソフトウェアを活用して意思決定を行うのを支援するアライアンス「Collective & Augmented Intelligence Against COVID-19」のチーフアーキテクトを務めました。
彼は、AIに対する個人的な関心と、オープンソースAIコミュニティ内の「組織化」の欠如という彼の特徴的な2つの動機から、2020年にStability AIを共同設立しました。
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日

「75人の従業員以外には投票権はありません。億万長者、大手ファンド、政府、あるいは会社や私たちが支援するコミュニティを支配する者など、誰も投票権を持っていません。私たちは完全に独立しています」と、モスタケ氏はTechCrunchへのメールで述べた。「私たちは、私たちのコンピューティング能力をオープンソースの基盤AIの発展に活用していく予定です。」
モスタケ氏によると、スタビリティAIは、インターネットから収集した56億枚の画像を含む、オープンソースの250テラバイトのデータセットであるLAION 5Bの作成に資金を提供したという。(「LAION」は、AI、データセット、コードを一般に公開することを目的とする非営利団体であるLarge-scale Artificial Intelligence Open Networkの略称)。同社はまた、LAIONグループと協力して、LAION 5BのサブセットであるLAION-Aestheticsを作成した。これには、スタビリティ拡散のテスターによって特に「美しい」と評価された、AIフィルタリングされた20億枚の画像が含まれている。
Stable Diffusionの初期バージョンは、LAION 5Bの前身であるLAION-400Mをベースにしていました。LAION-400Mには性描写、中傷、有害なステレオタイプ表現が含まれていることが知られていました。LAION-Aestheticsはこの点を修正しようと試みていますが、どの程度効果があるかはまだ判断できません。

いずれにせよ、Stable DiffusionはOpenAI、Runway、そしてGoogleのAI研究開発部門の一つであるGoogle Brainで培われた研究に基づいています。このシステムはLAION-Aestheticsのテキストと画像のペアを用いて学習し、書かれた概念と画像との関連性を学習しました。例えば、「bird(鳥)」という単語は、青い鳥だけでなく、インコやハクトウワシ、さらにはより抽象的な概念も指すことがあります。
実行時に、Stable Diffusion(DALL-E 2 と同様)は画像生成プロセスを「拡散」プロセスに分解します。純粋なノイズから始まり、時間の経過とともに画像を洗練させ、ノイズがなくなるまで、与えられたテキスト記述に徐々に近づけていきます。

Stability AIは、AWS上で稼働する4,000基のNvidia A100 GPUクラスターを用いて、1ヶ月かけてStable Diffusionのトレーニングを行いました。ミュンヘン・ルートヴィヒ・マクシミリアン大学のマシンビジョン・学習研究グループであるCompVisがトレーニングを監督し、Stability AIがコンピューティング能力を提供しました。
Stable Diffusionは、約5GBのVRAMを搭載したグラフィックカードで動作します。これは、約230ドルのNvidia GTX 1660のようなミッドレンジのグラフィックカードとほぼ同等の容量です。AMD MI200のデータセンターカードや、AppleのM1チップを搭載したMacBookとの互換性確保に向けた作業が進行中です(ただし、後者の場合、GPUアクセラレーションを使用しないと、画像生成に数分かかる場合があります)。
「私たちはモデルを最適化し、100テラバイトを超える画像の知識を圧縮しました」とモサク氏は述べた。「このモデルのバリエーションは、より小規模なデータセットで利用される予定です。特に、人間のフィードバックによる強化学習やその他の技術を用いて、これらの汎用的なデジタル脳をさらに小型化し、より集中的に機能させるためです。」

Stability AIはここ数週間、Discordサーバーを通じて限られた数のユーザーにStable Diffusionモデルへのクエリを許可し、システムのストレステストのためにクエリの最大数を徐々に増やしてきました。Stability AIによると、1万5000人以上のテスターがStable Diffusionを使用して1日あたり200万枚の画像を作成しています。
広範囲にわたる影響
Stability AIは、Stable Diffusionをより広く利用できるようにするために、2つのアプローチを取る予定です。クラウド上でモデルをホストし、特定のコンテンツに合わせて調整可能なフィルターを適用することで、ユーザーはシステム自体を実行することなく、画像生成に引き続き利用できるようになります。さらに、同社は「ベンチマーク」モデルと呼ぶモデルを、商用利用を含むあらゆる用途に使用できるパーミッシブライセンスの下で公開し、モデルのトレーニングに必要なコンピューティングリソースも提供します。
これにより、Stability AIはDALL-E 2に匹敵する高忠実度画像生成モデルをリリースする最初の企業となります。Midjourney、NightCafe、Pixelz.aiなど、AIを活用した画像生成ツールは以前から存在していましたが、いずれもフレームワークをオープンソース化していません。GoogleやMetaなどは、自社の技術を極秘に扱い、限られたユーザーのみに限られたユースケースで試験運用を許可しています。
モスタケ氏によると、スタビリティAIは顧客向けに「プライベート」モデルの学習を行い、汎用インフラレイヤーとして機能することで収益を得る予定で、おそらく知的財産権には細心の注意を払うことになるとのことだ。同社は、音声、音楽、さらには動画を生成するAIモデルなど、商業化可能なプロジェクトを他に開発中であると主張している。

「公式ローンチに合わせて、持続可能なビジネスモデルの詳細を近日中に発表しますが、基本的には商用オープンソースソフトウェアの戦略、つまりサービスとスケールインフラの構築です」とモスタケ氏は述べた。「AIはサーバーやデータベースと同じ道を辿り、オープンソースがプロプライエタリなシステムに打ち勝つと考えています。特に、私たちのコミュニティの熱意を考えるとなおさらです。」
(この記事の以前のバージョンでは、Stability AI がキーワード フィルターを使用していないと示唆していました。これは事実ではありません。TechCrunch はこの誤りを深くお詫び申し上げます。)

Stability AIには、著名人の写真に対するポリシーもありません。そのため、ディープフェイク(そして有名ラッパーのルネサンス風の絵画)も問題なく処理できると考えられますが、このモデルは顔の認識に時折苦労し、熟練したPhotoshopアーティストでも滅多に発生しないような奇妙なアーティファクトが生じてしまいます。
「私たちが公開するベンチマークモデルは、一般的なウェブクロールに基づいており、数ギガバイトのファイルに圧縮された人類の集合的なイメージを表現するように設計されています」とモスタケ氏は述べた。「違法コンテンツを除き、フィルタリングは最小限であり、自由に利用するのはユーザー次第です。」

より深刻な問題となるのは、近々リリースされる、カスタマイズおよび微調整された安定拡散モデルを作成するためのツールです。Viceが紹介した「AIファーリーポルノジェネレーター」は、今後の動向を予感させるものです。CuteBlackという名の美術学生が、ファーリーファンダムサイトからアートワークをスクレイピングし、擬人化された動物の性器のイラストを大量生成するように画像ジェネレーターを訓練しました。可能性はポルノだけにとどまりません。理論的には、悪意のある人物が暴動や流血、あるいはプロパガンダなどの画像に対して安定拡散モデルを微調整することも可能です。
すでにStability AIのDiscordサーバーのテスターたちは、Stable Diffusionを使って、他の画像生成サービスでは許可されていない様々なコンテンツを生成している。ウクライナ戦争の画像、女性のヌード画像、架空の中国による台湾侵攻、預言者ムハンマドのような宗教的人物の物議を醸す描写などだ。これらの画像の中にはStability AIの利用規約に違反するものもあることは間違いないが、同社は現在、コミュニティからの違反報告に頼っている。多くの画像には、手足のバランスが崩れていたり、アートスタイルの不調和な組み合わせなど、アルゴリズムによって作成されたという明らかな特徴が見られる。しかし、一見して問題ない画像もある。そして、この技術は今後も進化し続けるだろう。

モスタク氏は、これらのツールが悪意のある人物によって「非常に悪質なもの」を作成するために使用される可能性があることを認めており、CompVisは、ベンチマークとなる安定拡散モデルの公開には「倫理的な配慮が組み込まれる」と述べています。しかし、モスタク氏は、ツールを自由に利用できるようにすることで、コミュニティが対策を開発できるようになると主張しています。
「私たちは、独立したものから学術的なものまで、世界中のオープンソースAIを連携させ、重要なインフラ、モデル、そしてツールを構築し、私たちの集合的な可能性を最大限に引き出すための触媒となることを目指しています」とモスタケ氏は述べた。「これは人類をより良い方向へと変革する素晴らしい技術であり、すべての人々にとってオープンなインフラとなるべきです。」

誰もが同意しているわけではない。その証拠が、悪名高い4chanの有害な掲示板の一つで訓練されたAIモデル「GPT-4chan」をめぐる論争だ。AI研究者のヤニック・キルチャー氏は、人種差別的、反ユダヤ的、女性蔑視的なヘイトスピーチを出力するように学習したGPT-4chanを、今年初めに訓練済みAIモデル共有ハブ「Hugging Face」で公開した。ソーシャルメディアやHugging Faceのコメント欄での議論を受けて、Hugging Faceチームはまずモデルへのアクセスを「ゲート」し、その後完全に削除したが、その前にモデルは1000回以上ダウンロードされていた。

Meta社の最近のチャットボットの失態は、一見安全な モデルでさえも誤作動を防ぐことの難しさを如実に示している。同社史上最も高度なAIチャットボット「BlenderBot 3」をウェブ上で公開してからわずか数日後、Meta社は、このボットが頻繁に反ユダヤ的な発言をし、2年前のドナルド・トランプ前米大統領の再選に関する虚偽の主張を繰り返していたというメディア報道に直面せざるを得なくなった。
AIダンジョンのパブリッシャーであるLatitudeも同様のコンテンツ問題に直面しました。OpenAIのテキスト生成システムGPT-3を搭載したこのテキストベースのアドベンチャーゲームの一部プレイヤーは、ゲームが小児性愛を含む極端な性的テーマを時々提示することに気づきました。これは、不必要な性描写を含むフィクションストーリーを微調整した結果です。OpenAIからの圧力を受け、Latitudeはフィルターを実装し、許可されていないコンテンツを意図的に誘導したプレイヤーを自動的にBANするようになりました。
「…を持った少年」。#StableDiffusion #AIart
ああ、このような創造物が存在する素晴らしい新世界。#ごめんなさいごめんなさい pic.twitter.com/gpLQUJkp1T
— エマド (@EMostaque) 2022年7月27日
BlenderBot 3の有害性は、学習に使用された公開ウェブサイトのバイアスに起因していました。これはAIにおいてよく知られた問題で、フィルタリングされた学習データを与えても、モデルは男性を幹部、女性をアシスタントとして描写する写真セットのようなバイアスを増幅させる傾向があります。OpenAIはDALL-E 2において、データセットフィルタリングなどの技術を実装することでこの問題に対処し、モデルがより「多様な」画像を生成できるようにしました。しかし、一部のユーザーは、特定のプロンプトに基づいて画像を作成する際のモデルの精度が以前よりも低下したと主張しています。
Stable Diffusionには、訓練データセットのフィルタリング以外に、ほとんど緩和策がありません。では、例えば抗議活動の写実的な画像、未成年者のポルノ画像、偽の月面着陸の「証拠」、そして一般的な誤情報などを生成することを防ぐものは何でしょうか?実際には何もないのです。しかし、Mostaque氏はそれがポイントだと言います。

「一部の人は単に不快で奇妙なものですが、それが人間性なのです」とモスタケ氏は述べた。「実際、この技術は普及すると私たちは信じています。多くのAI愛好家が抱く父権主義的でやや見下したような態度は、社会を信頼しないという点で誤りです。…私たちは、リリース全体と自社サービスにおける潜在的な危害を軽減するための最先端ツールの開発を含む、重要な安全対策を講じています。このモデルに基づいて開発される数十万人がいることを考えると、その純利益は計り知れないほど大きくなり、数十億人がこの技術を使用することで、悪影響は相殺されると確信しています。」
注:この記事の画像はStability AIに帰属しますが、同社の利用規約では、生成された画像はそれを促したユーザーに帰属することが明記されています。つまり、Stability AIはStable Diffusionによって作成された画像に対する権利を主張しません。