誰でもDALL-E 2を使って画像を生成するアプリを構築できるようになりました

誰でもDALL-E 2を使って画像を生成するアプリを構築できるようになりました

OpenAIの画像生成AIシステム「DALL-E 2」がついにAPIとして公開されました。開発者は、このシステムをアプリ、ウェブサイト、サービスに組み込むことができます。OpenAIは本日のブログ投稿で、パブリックベータ版の一環としてOpenAI APIアカウントを作成すれば、すべての開発者がDALL-E 2のパワーを活用できるようになると発表しました。DALL-E 2は現在300万人以上が利用しており、1日あたり400万枚以上の画像を作成しています。

DALL-E 2 APIの価格は解像度によって異なります。1024×1024の画像の場合は1枚あたり0.02ドル、512×512の画像の場合は1枚あたり0.018ドル、256×256の画像の場合は1枚あたり0.016ドルです。OpenAIのエンタープライズチームと提携している企業には、ボリュームディスカウントが適用されます。

DALL-E 2 ベータ版と同様に、このAPIでは、テキストプロンプト(例:「花畑を跳ね回るふわふわのウサギ」)から新しい画像を生成したり、既存の画像を編集したりすることができます。OpenAIの緊密なパートナーであるMicrosoftは、BingとMicrosoft EdgeのImage CreatorツールでこのAPIを活用しています。このツールは、Web検索結果で探しているものが見つからない場合にユーザーが画像を作成できるものです。ファッションデザインアプリCALAは、DALL-E 2 APIを使用して、テキスト説明や画像からデザインのアイデアを洗練できるツールを提供しています。また、写真スタートアップのMixtilesは、ユーザー向けのアート作品作成フローにこのAPIを導入しています。

APIのリリースに伴うポリシー面での変更は大きくありません。これは、DALL-E 2のような生成AIシステムが、倫理的および法的問題を十分に考慮せずにリリースされているのではないかと懸念する人々を失望させるでしょう。これまでと同様に、ユーザーはOpenAIの利用規約に拘束され、DALL-E 2を用いて露骨に暴力的、性的、または憎悪的なコンテンツを生成することは禁じられています。OpenAIはまた、自動監視システムと人間による監視システムを組み合わせたシステムを用いて、ユーザーが同意を得ずに人物の写真や権利を持たない画像をアップロードすることを引き続きブロックしています。

ちょっとした変更点として、APIで生成された画像には透かしを入れることが必須ではなくなります。OpenAIはDALL-E 2ベータ版で、どの画像がシステムから生成されたかを示す方法として透かしを導入しましたが、APIのリリースに伴い、透かしはオプションとなりました。

「開発者には、画像がAIによって生成されたものであることを開示するよう奨励していますが、DALL-E 2の署名を含めることは必須ではありません」と、DALL-E 2の開発を監督するOpenAIのプロダクトマネージャー、ルーク・ミラー氏はTechCrunchにメールで語った。

DALL-E 2 API を搭載した Microsoft のデザイナー ツール。
DALL-E 2 APIを搭載したMicrosoftのデザイナーツール。画像提供: Microsoft

OpenAIはDALL-E 2にプロンプ​​トレベルと画像レベルのフィルターも採用していますが、一部の顧客からは過剰で不正確だとの不満の声が上がっています。また、OpenAIは研究の一環として、DALL-E 2が生成する画像の種類を多様化することに注力しており、テキスト画像変換AIシステムが陥りやすいバイアス(例えば、「CEOの例」のようなテキストでプロンプトを出すと、白人男性の画像が主に生成されるなど)に対抗することを目指しています。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

多くの批評家は、DALL-E 2について懸念しているのは、商標権の侵害だけではないと主張している。彼らは、このシステムは、数行のテキストで作風を複製できるようになったアーティストの生活の基盤を脅かしていると主張している。その中には、DALL-E 2のトレーニングに作品を使用することに同意していないアーティストも含まれる。(公平を期すために言うと、OpenAIはDALL-E 2のトレーニングデータセットに含まれる画像の一部のライセンスを取得しており、これは一部のライバル企業とは比較にならないほどのものだ。)

技術者のマット・ドライハースト氏とホリー・ハーンドン氏は、「Source+」と呼ばれる取り組みを主導しています。これは、人々が自分の作品や肖像をAIの学習目的で利用することを拒否できるようにするものです。ただし、これは任意です。OpenAIは、この取り組みに参加するかどうか、そして権利者が学習やコンテンツ生成から自分の作品を除外できるセルフサービスツールを導入するかどうかについても明らかにしていません。

ミクスタイルズ DALL-E 2 API
MixtilesはDALL-E 2 APIの早期導入企業の一つです。画像提供: Mixtiles

インタビューでミラー氏は、新たな緩和策について具体的な内容についてはほとんど明らかにしなかったが、OpenAIは、顧客が不快に感じる可能性のある偏向した、有害な、あるいは不快なコンテンツをシステムが生成するのを防ぐ技術を改良してきたと述べた。同氏は、オープンAPIベータ版を「反復的な」プロセスと表現し、OpenAIがDALL-E 2を支えるインフラを拡大していく今後数ヶ月間、「ユーザーとアーティスト」との協力を伴うものだと述べた。

DALL-E 2ベータ版が示唆するところによれば、APIプログラムは時間とともに進化していくでしょう。OpenAIは当初、DALL-E 2で人の顔を編集する機能を無効にしていましたが、後に安全システムを改善し、この機能を有効にしました。

「この点については、多くの取り組みを行ってきました。アップロードされる画像と送信されるプロンプトの両方において、コンテンツポリシーに準拠するよう努め、プロンプトレベルと画像レベルでフィルタリングするための様々な緩和策を組み込み、コンテンツポリシーとの整合性を確保しています。例えば、ヘイトシンボルや残虐な表現、つまり非常に暴力的なコンテンツを含む画像をアップロードした場合、それは拒否されます」とミラー氏は述べた。「私たちは常にシステムの改善方法を考えています。」

OpenAIは、ポルノ、ゴア、セレブのディープフェイクの作成に利用されてきたDALL-E 2のオープンソース版であるStable Diffusionをめぐる論争を避けようとしているように見える一方で、その技術をどのように、どこに展開するかはAPIユーザーに委ねている。Microsoftのように、DALL-E 2搭載製品を徐々に展開し、フィードバックを集めるといった慎重なアプローチを取る企業もあるだろう。一方で、技術とそれに伴う倫理的なジレンマの両方を受け入れ、真っ向から取り組む企業もあるだろう。

確かなことが一つあるとすれば、それは生成AIへの需要が潜在しているということだ。どんな結果になっても構わない。APIが正式に利用可能になる前から、開発者たちはDALL-E 2をアプリ、サービス、ウェブサイト、さらにはビデオゲームに統合するための回避策を公開していた。OpenAIの強力なマーケティング力に後押しされたパブリックベータ版のリリースにより、合成画像は真に主流になろうとしている。