技術的な問題やライセンスの変更に起因する一連の論争を経て、AIスタートアップ企業のStability AIは最新の画像生成モデルファミリーを発表した。
同社によれば、新しいStable Diffusion 3.5シリーズは、同社の前世代技術よりもカスタマイズ性と汎用性が高く、さらに高性能だという。全3モデルが用意されている。
- Stable Diffusion 3.5 Large: 80億のパラメータを備えた最も強力なモデルで、最大1メガピクセルの解像度で画像を生成できます。(パラメータはモデルの問題解決能力にほぼ相当し、パラメータ数が多いモデルはパラメータ数の少ないモデルよりも一般的にパフォーマンスが向上します。)
- Stable Diffusion 3.5 Large Turbo: Stable Diffusion 3.5 Large の精製バージョンで、品質は多少犠牲になりますが、より速く画像を生成します。
- Stable Diffusion 3.5 Medium:スマートフォンやラップトップなどのエッジ デバイスで実行するように最適化されたモデルで、0.25 メガピクセルから 2 メガピクセルの解像度の画像を生成できます。
Stable Diffusion 3.5 Large と 3.5 Large Turbo は現在入手可能ですが、3.5 Medium は 10 月 29 日までリリースされません。
Stability によれば、Stable Diffusion 3.5 モデルは、より「多様な」出力、つまり、「広範囲にわたる」指示を必要とせずに、さまざまな肌の色や特徴を持つ人々を描写した画像を生成するはずだという。
「トレーニング中、各画像には複数のバージョンのプロンプトがキャプションとして付与され、短いプロンプトが優先されます」と、Stabilityの最高技術責任者であるHanno Basse氏はTechCrunchのインタビューで語った。「これにより、任意のテキスト説明に対して、より幅広く多様な画像コンセプトが分散されます。多くの生成AI企業と同様に、私たちはフィルタリングされた公開データセットや合成データなど、多種多様なデータを使ってトレーニングを行っています。」
過去にも、一部の企業が画像生成ツールにこうした「多様化」機能を不器用に組み込んでしまい、ソーシャルメディアで非難の声が上がったことがありました。例えば、Googleのチャットボット「Gemini」の旧バージョンでは、「ローマ軍団」や「米国上院議員」といった歴史的なキーワードを入力すると、時代錯誤な人物像が表示されていました。Googleは修正プログラムの開発期間中、人物画像の生成を約6ヶ月間停止せざるを得ませんでした。
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日
運が良ければ、Stability のアプローチは他のものよりも思慮深いものになるでしょう。残念ながら、Stability は早期アクセスを提供していないため、感想をお伝えすることはできません。

Stability社の以前の主力画像生成ツールであるStable Diffusion 3 Mediumは、特異なアーティファクトとプロンプトへの対応の悪さで、多くの批判を浴びました。同社は、Stable Diffusion 3.5のモデルにも同様のプロンプトエラーが発生する可能性があると警告しており、エンジニアリングとアーキテクチャのトレードオフが原因だとしています。しかし、Stability社は、これらのモデルは3Dアートを含む様々なスタイルの画像生成において、以前のモデルよりも堅牢であると主張しています。
「同じプロンプトでもシードが異なると出力に大きなばらつきが生じる可能性があります。これは、ベースモデルの知識ベースをより広く維持し、多様なスタイルを維持するのに役立つため、意図的なものです」とStabilityはTechCrunchに共有されたブログ記事に記しています。「しかし、結果として、プロンプトの具体性が欠如すると、出力の不確実性が高まり、美的レベルが変化する可能性があります。」

新しいモデルでも変更されていないのは、Stability のライセンスです。
以前のStabilityモデルと同様に、Stable Diffusion 3.5シリーズのモデルは、研究を含む「非営利」目的であれば無料でご利用いただけます。年間売上高が100万ドル未満の企業であれば、無料で商用化することも可能です。ただし、売上高が100万ドルを超える組織は、Stability社とエンタープライズライセンス契約を締結する必要があります。
Stabilityは今夏、画像ジェネレーターの画像で学習させたモデルに対して、同社が手数料を徴収する権利を与えていた(少なくとも与えているように見せかけていた)制限的な微調整規約をめぐり、大きな騒動を引き起こしました。この反発を受け、同社はより自由な商用利用を可能にするために規約を調整しました。Stabilityは本日、ユーザーがStabilityモデルで生成したメディアの所有権を改めて確認しました。
「クリエイターには、作品をパイプライン全体に配布し、収益化することを奨励しています」と、スタビリティのマーケティングおよびコミュニケーション担当副社長アナ・ギレン氏は電子メールでの声明で述べた。「ただし、その作品のユーザーに当社のコミュニティライセンスのコピーを提供し、関連ウェブサイト、ユーザーインターフェース、ブログ投稿、Aboutページ、製品ドキュメントなどに『Powered by Stability AI』と目立つように表示していただく必要があります。」
Stable Diffusion 3.5 LargeおよびDiffusion 3.5 Large Turboは、セルフホスト、またはStabilityのAPIやHugging Face、Fireworks、Replicate、ComfyUIなどのサードパーティプラットフォーム経由で利用できます。Stabilityは、微調整を可能にするこれらのモデル用のControlNetを今後数日以内にリリースする予定だと述べています。

ただし、 Stabilityはデータ所有者がトレーニングデータセットから自身のデータを削除するようリクエストすることを許可しています。同社によると、2023年3月時点で、アーティストはStable Diffusionのトレーニングデータから8,000万枚の画像を削除しています。
間近に迫った米国総選挙を踏まえ、誤情報に関する安全対策について尋ねられたスタビリティ社は、「悪意のある人物によるステーブル・ディフュージョンの悪用を防ぐために、適切な措置を講じており、今後も継続する」と述べた。しかし、同社はこれらの措置に関する具体的な技術的詳細については明らかにしなかった。
3月の時点で、スタビリティーは、同社の生成AIツールを使用して作成された、明らかに「誤解を招く」コンテンツのみを禁止しており、選挙に影響を与えたり、選挙の公正性を傷つけたり、政治家や著名人を取り上げたコンテンツは禁止していなかった。
TechCrunchではAIに特化したニュースレターを配信しています! 毎週水曜日に受信ボックスに配信されますので、こちらからご登録ください。