スタビリティAIの新しいモデルは、ハンド生成がわずかに優れている

スタビリティAIの新しいモデルは、ハンド生成がわずかに優れている

さまざまな生成 AI 実験に資金を提供するスタートアップ企業 Stability AI は、OpenAI の DALL-E 2 に最初に匹敵するテキストから画像への AI システムである Stable Diffusion の新バージョンをリリースしました。

Stable Diffusion XL(SDXL)と呼ばれるこの新システムは、Stability AIのジェネレーティブアートツールDreamStudioでベータ版として利用可能で、オリジナルシステムを大幅に改良しています。Stability AIのCTOであるトム・メイソン氏は、この新システムは旧モデル(Stable Diffusion 2.1)に欠けていた「豊かさ」を画像生成にもたらし、グラフィックデザインや建築などのアプリケーションで特に顕著な改善が見られると述べています。

「当社の画像ソリューション『Stable Diffusion』シリーズの最新版を発表できることを大変嬉しく思います」と、彼は声明文で述べた。「これは複数の業界に変革をもたらし、その成果は私たちの目の前で実際に現れています。」

誇張はさておき、SDXLは確かに、「バレンシアガ ポープ」(他のミームの中でも)のモデルであるミッドジャーニーの最新モデルと同等、あるいはそれ以上かもしれない。

以前のバージョンのStable Diffusionや、他の多くのテキスト画像変換システムは、手などの特定の解剖学的構造の再現に非常に苦労していましたが、SDXLにはそのような問題はありません。手は必ずしも…まあ、リアルとは言えませんが、SDXLの前身がしばしば生み出していた悪夢のような仕上がりに比べれば、はるかに優れています。

安定拡散
SDXLは手の扱いに優れていますが、もちろん完璧ではありません。画像クレジット: Stability AI
安定拡散
Stable Diffusion 2.1は明らかに劣っています。(私はもう諦めます。)画像クレジット: Stability AI

SDXLはテキスト生成にも優れていると言われています。テキスト生成は、これまで生成AIアートモデルを翻弄してきたタスクです。しかし、私の簡単なテストから判断すると、まだ改善の余地があるようです。

安定した拡散路側
上はStable Diffusion 2.1の結果。下はSDXLの出力。画像クレジット: Stability AI

Stability AIはプレスリリースで、SDXLは「強化された画像合成と顔生成」機能を備えており、前身とは異なり、「説明的な画像」を作成するために長く詳細なプロンプトを必要としないと主張しています。さらに、SDXLはテキストから画像へのプロンプトにとどまらず、画像から画像へのプロンプト(1枚の画像を入力してその画像のバリエーションを取得する)、インペインティング(画像の欠落部分を再構築する)、アウトペインティング(既存の画像のシームレスな拡張を構築する)など、拡張された機能を備えています。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

ワイルドカードとして、できるだけ短いプロンプト「バレンシアガ ポープ」でバレンシアガ ポープのミームを再現してみました。結果は予想以上に際立っていました。SDXLのランウェイモデルは、デザイナーブランドの服とも言えるような服装をしていたのに対し、かつてのStable Diffusionは、あからさまに宗教的な装いをしていたのです。

Stability AIによると、SDXLはベータ版終了後、Stable Diffusionの以前のバージョンと同様にオープンソース化される予定です。DreamStudioに加え、SDXLは現在StabilityのAPI経由でも早期アクセス版として利用可能です。

オープンソース版のStable Diffusionも、その使用制限が比較的緩いことから、論争の的となっている。ウェブ上の一部のコミュニティでは、ポルノ的な有名人のディープフェイクや暴力描写を生成するためにStable Diffusionを利用している。これまでに少なくとも1人の米国議員が、Stable Diffusionのような「コンテンツを適切にモデレートしていない」モデルのリリースに対処するための規制を求めている。

これらの訴訟を受けて、Stability AIは最近、Stable Diffusionのトレーニングデータセットからアーティストの作品を削除するという要請を尊重すると約束したが、これはSDXLには適用されず、「Stable Diffusion 3.0」というコードネームの次世代Stable Diffusionモデルにのみ適用される。オプトアウトの取り組みを主導する組織Spawningによると、アーティストはこれまでに7,800万点以上の作品をトレーニングデータセットから削除している。

法的問題はさておき、Stability AIは、アートやアニメーションからバイオメディカル、生成オーディオまで、幅広いAI開発を収益化するようプレッシャーをかけられています。Stability AIのCEO、エマド・モスタケ氏はIPO計画を示唆していますが、Semaforは最近、昨年10月に1億ドル以上のベンチャーキャピタル資金を調達し、評価額は10億ドル以上と報じられたStability AIが「資金が枯渇し、収益の創出が遅れている」と報じました。

カイル・ウィガーズは2025年6月までTechCrunchのAIエディターを務めていました。VentureBeatやDigital Trendsに加え、Android Police、Android Authority、Droid-Life、XDA-Developersといった様々なガジェットブログにも記事を寄稿しています。音楽療法士のパートナーとマンハッタンに在住。

バイオを見る