AI スタートアップ企業の Stability AI は、競争の激化と倫理的な課題に直面しながらも、生成 AI モデルの改良を続けています。
Stability AIは本日、同社がこれまでで「最も先進的」と表現するテキスト画像変換モデル「Stable Diffusion XL 1.0」のリリースを発表しました。Stability AIのAPI、およびコンシューマー向けアプリ「ClipDrop」と「DreamStudio」に加え、GitHubでもオープンソースとして公開されているStable Diffusion XL 1.0は、前バージョンと比較して「より鮮やか」で「正確な」色彩表現と、より優れたコントラスト、影、そしてライティングを実現するとStability AIは主張しています。
TechCrunchとのインタビューで、Stability AIの応用機械学習責任者であるジョー・ペンナ氏は、35億個のパラメータを備えたStable Diffusion XL 1.0は、複数のアスペクト比で1メガピクセルのフル解像度画像を「数秒で」生成できると述べました。「パラメータ」とは、トレーニングデータから学習したモデルの各要素であり、本質的には問題(この場合は画像生成)に対するモデルのスキルを定義します。
前世代の Stable Diffusion モデルである Stable Diffusion XL 0.9 でも、より高解像度の画像を生成できましたが、より多くの計算能力が必要でした。
「Stable Diffusion XL 1.0はカスタマイズ可能で、コンセプトやスタイルに合わせて微調整できます」とペナ氏は述べた。「さらに使いやすくなり、基本的な自然言語処理によるプロンプトで複雑なデザインにも対応できます。」
Stable Diffusion XL 1.0は、テキスト生成の領域でも改良されています。優れたテキスト画像変換モデルの多くは、読みやすいロゴ、ましてやカリグラフィやフォントを含む画像を生成するのに苦労していますが、Stable Diffusion XL 1.0は「高度な」テキスト生成と読みやすさを実現しているとPenna氏は言います。
SiliconAngleとVentureBeatの報道によると、Stable Diffusion XL 1.0は、インペインティング(画像の欠損部分を再構成する)、アウトペインティング(既存の画像を拡張する)、そして「画像間」プロンプトをサポートしています。つまり、ユーザーは画像を入力し、テキストプロンプトを追加することで、その画像のより詳細なバリエーションを作成できます。さらに、このモデルは、短いプロンプトで与えられた複雑で複数の部分から成る指示を理解しますが、従来のStable Diffusionモデルではより長いテキストプロンプトが必要でした。
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日

「このはるかに強力なオープンソースモデルをリリースすることで、画像の解像度が4倍になるだけでなく、すべてのユーザーに大きなメリットをもたらす進歩ももたらされることを期待しています」と彼は付け加えた。
しかし、安定拡散の以前のバージョンと同様に、このモデルは厄介な道徳的問題を提起します。
Stable Diffusion XL 1.0のオープンソース版は、理論上、悪意のある人物が、合意のないディープフェイクのような有害コンテンツを生成するために利用される可能性があります。これは、学習に使用されたデータ、つまりウェブ上の何百万枚もの画像に一部起因しています。
Stability AI独自のツール(Stable DiffusionのオープンソースフロントエンドであるDreamStudioを含む)を使ってディープフェイクを作成する方法を紹介するチュートリアルは数多くあります。また、Stable Diffusionの基本モデルを微調整してポルノを生成する方法を紹介するチュートリアルも数多くあります。
ペナ氏は、悪用される可能性を否定せず、モデルにも一定のバイアスが含まれていることを認めている。しかし、Stability AIは、モデルのトレーニングデータから「安全でない」画像をフィルタリングし、問題のあるプロンプトに関する新たな警告を発し、ツール内で可能な限り多くの問題のある用語を個別にブロックすることで、有害コンテンツの生成を軽減するための「追加措置」を講じていると付け加えた。
Stable Diffusion XL 1.0のトレーニングセットには、Stability AIを含む企業が生成AIモデルのトレーニングデータとして自身の作品を使用していることに抗議したアーティストの作品も含まれています。Stability AIは、少なくとも米国ではフェアユースの原則によって法的責任を免れていると主張しています。しかし、複数のアーティストやストックフォト会社のGetty Imagesが、この行為を阻止するために訴訟を起こしています。
こうしたアーティストからの「オプトアウト」の要請を尊重するためにスタートアップ企業Spawningと提携しているStability AIは、フラグの付いたアートワークをトレーニングデータセットからすべて削除したわけではないが、「アーティストの要請は引き続き取り入れていく」と述べている。
「Stable Diffusionの安全機能は継続的に改善しており、今後もこれらの対策を継続的に改善していくつもりです」とペナ氏は述べた。「さらに、アーティストからのトレーニングデータセットからの除外要請には、その要望を尊重することをお約束します。」
Stability AIは、Stable Diffusion XL 1.0のリリースに合わせて、APIの微調整機能をベータ版でリリースします。これにより、ユーザーはわずか5枚の画像を使用して、特定の人物や製品などに「特化」した生成が可能になります。また、同社はStable Diffusion XL 1.0を、Amazonの生成AIモデルをホスティングするクラウドプラットフォームであるBedrockに導入します。これは、以前に発表されたAWSとの連携をさらに拡大するものです。
提携と新たな機能の推進は、Stability社がOpenAI、Midjourneyなどの厳しい競争に直面し、商業活動が停滞している中で行われている。4月、Semaforは、これまでに1億ドル以上のベンチャーキャピタルを調達してきたStability AIが資金繰りに苦しんでいると報じた。これを受け、6月には2,500万ドルの転換社債を発行し、売上拡大のための幹部人材の採用を進めた。
「最新のSDXLモデルは、Stability AIのイノベーションの伝統と、AIコミュニティ向けに最先端のオープンアクセスモデルを市場に提供する能力における新たな一歩を象徴しています」と、Stability AIのCEOであるEmad Mostaque氏はプレスリリースで述べています。「Amazon Bedrockで1.0を公開することは、AWSと連携して開発者とクライアントに最高のソリューションを提供するという当社の強いコミットメントを示すものです。」