過去2年間で、AIを活用した画像生成ツールは、その技術が広く普及し、技術的障壁も低下したことで、多かれ少なかれコモディティ化してきました。GoogleやMicrosoftをはじめとするほぼすべての大手IT企業に加え、ますます収益性が高まる生成AI市場のパイを掴もうとする無数のスタートアップ企業も、AIを活用した画像生成ツールを導入しています。
だからといって、パフォーマンス面ではまだ安定しているということではありません。むしろ、全く違います。画像ジェネレーターの品質は向上していますが、それは漸進的な進歩であり、時には苦痛を伴うものです。
しかし、Meta は突破口が見つかったと主張している。
Metaは本日、CM3Leon(ぎこちないリート語で「カメレオン」を意味する)を発表しました。これは、同社がテキストから画像への生成において最先端の性能を実現すると主張するAIモデルです。CM3Leonは、画像にキャプションを生成できる最初の画像生成器の一つであることも特徴としており、今後、より高性能な画像理解モデルの基礎を築くものだとMetaは述べています。
「CM3Leonの機能により、画像生成ツールは入力プロンプトにより忠実に従い、より一貫性のある画像を生成できるようになります」と、Meta氏は今週初めにTechCrunchに共有したブログ記事で述べています。「CM3Leonが様々なタスクで優れたパフォーマンスを発揮していることは、より忠実度の高い画像生成と理解に向けた一歩だと考えています。」
OpenAIのDALL-E 2、GoogleのImagen、Stable Diffusionなど、現代の画像生成ツールのほとんどは、拡散と呼ばれるプロセスを利用してアートを作成しています。拡散では、モデルはノイズだけで構成された初期画像から徐々にノイズを減らす方法を学習し、目標とするプロンプトに徐々に近づけていきます。
結果は素晴らしいものでした。しかし、拡散は膨大な計算量を必要とするため、運用コストが高く、ほとんどのリアルタイムアプリケーションでは実用的ではないほど遅いのです。
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日
CM3Leonは対照的に、Transformerモデルであり、「Attention」と呼ばれるメカニズムを利用して、テキストや画像などの入力データの関連性を評価します。AttentionをはじめとするTransformerのアーキテクチャ上の特徴により、モデルの学習速度が向上し、モデルの並列化が容易になります。言い換えれば、より大きなTransformerでも、計算量を大幅に増加させることで学習できますが、これは不可能ではありません。
また、CM3Leon はほとんどのトランスフォーマーよりもさらに効率的で、従来のトランスフォーマーベースの方法に比べて 5 倍の計算量と小さなトレーニング データセットしか必要としないと Meta は主張しています。
興味深いことに、OpenAIは数年前にImage GPTと呼ばれるモデルを用いて、画像生成の手段としてTransformerを研究しました。しかし、最終的には拡散モデルを採用し、このアイデアを放棄しました。そして近いうちに「一貫性」モデルへと移行するかもしれません。
CM3Leonの学習にあたり、MetaはShutterstockからライセンス供与された数百万枚の画像データセットを使用しました。Metaが構築したCM3Leonの複数のバージョンの中で最も高性能なものは、70億のパラメータを持ち、これはDALL-E 2の2倍以上です。(パラメータとは、学習データから学習するモデルの部分であり、テキスト生成(この場合は画像生成)といった問題に対するモデルのスキルを本質的に定義します。)
CM3Leonの優れたパフォーマンスの鍵の一つは、教師ありファインチューニング(SFT)と呼ばれる手法です。SFTはOpenAIのChatGPTのようなテキスト生成モデルの学習に用いられ、大きな効果を上げてきましたが、Meta氏は画像領域にも適用できる可能性があると理論づけました。実際、命令チューニングによってCM3Leonのパフォーマンスは画像生成だけでなく、画像キャプションの作成においても向上し、画像に関する質問に答えたり、テキスト指示(例えば「空の色を明るい青に変更する」など)に従って画像を編集したりできるようになりました。
ほとんどの画像ジェネレーターは、「複雑な」オブジェクトや制約が多すぎるテキストプロンプトに苦労します。しかし、CM3Leonはそうではありません。少なくとも、それほど頻繁には苦労しません。MetaはCM3Leonに「サハラ砂漠で麦わら帽子とネオンサングラスをかけた小さなサボテン」「人間の手のクローズアップ写真、ハンドモデル」「サムライソードを手に壮大な戦いに備えるアニメのアライグマの主人公」「『1991』というテキストが書かれたファンタジー風の一時停止標識」といったプロンプトを使って画像を生成させました。
比較のため、同じプロンプトをDALL-E 2で実行してみました。結果の一部は近似していましたが、CM3Leonの画像は概ねプロンプトに近く、より詳細な情報が得られました。看板が最も顕著な例です。(最近まで、拡散モデルはテキストと人体構造の両方を比較的うまく処理できていませんでした。)


CM3Leonは、既存の画像を編集する指示も理解できます。例えば、「『シンクと鏡のある部屋』の高画質画像を生成し、ボトルの位置は(199, 130)」という指示を与えると、モデルは視覚的に一貫性があり、Metaの言葉を借りれば「文脈的に適切な」画像(部屋、シンク、鏡、ボトルなど)を生成します。DALL-E 2はこのような指示のニュアンスを全く理解できず、指示されたオブジェクトを完全に省略してしまうこともあります。
そしてもちろん、DALL-E 2とは異なり、CM3Leonは様々なプロンプトに従って短いキャプションや長いキャプションを生成したり、特定の画像に関する質問に答えたりすることができます。Metaによると、これらの分野では、トレーニングデータに含まれるテキストが少ないにもかかわらず、CM3Leonは画像キャプションに特化したモデル(Flamingo、OpenFlamingoなど)よりも優れたパフォーマンスを発揮しました。
しかし、バイアスはどうでしょうか?DALL-E 2のような生成AIモデルは、社会的なバイアスを強化することが分かっています。「CEO」や「取締役」といった権威ある地位の画像を生成する際、その画像には主に白人男性が描かれているからです。Metaはこの疑問に答えず、CM3Leonは「トレーニングデータに存在するあらゆるバイアスを反映する可能性がある」とだけ述べています。
「AI業界が進化を続けるにつれ、CM3Leonのような生成モデルはますます洗練されつつあります」と同社は述べている。「業界はこれらの課題を理解し、対処する初期段階にありますが、透明性が進歩を加速させる鍵となると考えています。」
MetaはCM3Leonをリリースする予定があるかどうか、またいつリリースする予定なのかについては言及しなかった。オープンソースのアートジェネレーターをめぐる論争を考えると、期待しすぎない方が良いだろう。