Spawningはより倫理的なAIトレーニングデータセットを構築したいと考えている

Spawningはより倫理的なAIトレーニングデータセットを構築したいと考えている

ジョーダン・マイヤーとマシュー・ドライハーストは、アーティストが自身の作品のオンライン利用をよりコントロールできるツールを開発するためにSpawning AIを設立しました。彼らの最新プロジェクト「Source.Plus」は、AIモデルの学習用に「著作権を侵害しない」メディアをキュレーションすることを目的としています。

Source.Plusプロジェクトの最初の取り組みは、約4,000万点のパブリックドメイン画像とクリエイティブ・コモンズのCC0ライセンスに基づく画像で構成されたデータセットです。CC0ライセンスでは、クリエイターは作品に対するほぼすべての法的権利を放棄できます。マイヤー氏は、Source.Plusのデータセットは他の生成AIトレーニングデータセットよりも大幅に小さいにもかかわらず、最先端の画像生成モデルをトレーニングするのに十分な「高品質」であると主張しています。

「Source.Plusでは、ユニバーサルな『オプトイン』プラットフォームを構築しています」とマイヤー氏は述べた。「私たちの目標は、権利保有者が自身のメディアを生成AIトレーニング用に、独自の条件で容易に提供できるようにすることです。そして、開発者がそれらのメディアをトレーニングワークフローにスムーズに組み込めるようにすることです。」

権利管理

生成 AI モデル、特に Stable Diffusion や OpenAI の DALL-E 3 のようなアート生成モデルのトレーニングの倫理をめぐる議論は依然として続いており、最終的にどのような決着がつくにせよ、アーティストにとって大きな影響を及ぼしています。

スポーニング社のCEOであるマイヤー氏は、まだ誰も最善のアプローチを決めていないと考えている。

「AIのトレーニングでは、入手可能なデータの中で最も簡単なものを使うことがデフォルトになっていることがよくあります。しかし、それらのデータは必ずしも公平で責任ある形で提供されたものではありません」と彼はTechCrunchのインタビューで語った。「アーティストや権利保有者は、AIのトレーニングにおける自身のデータの使用方法をほとんど制御できず、開発者はデータの権利を尊重しやすい高品質な代替手段を持っていませんでした。」

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

限定ベータ版として利用可能な Source.Plus は、アートの来歴と使用権​​の管理のための Spawning の既存のツールを基盤としています。

2022年、SpawningはHaveIBeenTrainedというウェブサイトを立ち上げました。これは、Hugging FaceやStability AIなど、Spawningと提携しているベンダーが使用するトレーニングデータセットをクリエイターがオプトアウトできるものです。True VenturesやSeed Club Venturesなどの投資家から300万ドルのベンチャーキャピタルを調達した後、SpawningはウェブサイトがAIに「権限を設定」できる機能「ai.text」と、データスクレイピングボットから身を守るシステム「Kudurru」を展開しました。

Source.Plusは、Spawningがメディアライブラリを構築し、社内でキュレーションを行う最初の取り組みです。初期の画像データセットであるPD/CC0は、商用または研究用途に使用できるとMeyer氏は述べています。

産卵ソース.Plus
Source.Plusライブラリ。画像クレジット: Spawning

「Source.Plusは単なるトレーニングデータのリポジトリではありません。トレーニングパイプラインをサポートするツールを備えたエンリッチメントプラットフォームです」と彼は続けた。「私たちの目標は、強力なベースAIモデルをサポートできる、高品質で著作権を侵害しないCC0データセットを年内に提供することです。」

ゲッティイメージズ、アドビ、シャッターストック、AIスタートアップのブリアといった組織は、モデルのトレーニングには公正なデータ源から得られたデータのみを使用していると主張している。(ゲッティは、自社のAI生成製品を「商業的に安全」とさえ呼んでいる。)しかしマイヤー氏によると、Spawningは公正なデータ源の基準をさらに引き上げることを目指しているという。

「収集した画像について報告されたライセンスを綿密に検証し、疑わしいライセンスは除外しました。これは多くの『公平な』データセットでは行われない手順です」とマイヤー氏は述べた。

歴史的に、暴力的、ポルノ的、センシティブな個人的画像などの問題のある画像は、オープンおよび商用の両方のトレーニング データセットを悩ませてきました。

LAIONデータセットの管理者は、医療記録や児童性的虐待の描写が報告されたことを受け、あるライブラリをオフラインにせざるを得ませんでした。今週、ヒューマン・ライツ・ウォッチの調査によると、LAIONのリポジトリの一つに、ブラジルの児童の顔が本人の同意や承諾なしに含まれていたことが明らかになりました。また、AdobeのストックメディアライブラリであるAdobe Stockには、アートを生成するFirefly Imageモデルを含む生成AIモデルのトレーニングに利用されていますが、Midjourneyなどの競合他社がAI生成した画像が含まれていることが判明しました。

産卵ソース.Plus
Source.Plusギャラリーのアートワーク。画像クレジット: Spawning

Spawningのソリューションは、ヌード、ゴア、個人情報、その他画像内の不要な部分を検出するようにトレーニングされた分類モデルです。Spawningは、完璧な分類器は存在しないことを認識し、分類器の検出閾値を調整することで、ユーザーがSource.Plusデータセットを「柔軟に」フィルタリングできるようにする予定です、とMeyer氏は述べています。

「データの所有権を確認するためにモデレーターを雇用しています」とマイヤー氏は付け加えた。「また、是正機能も組み込んでおり、ユーザーは違反作品や著作権侵害の疑いのある作品を報告でき、そのデータがどのように利用されたかの履歴を監査できます。」

補償

生成AIトレーニングデータの提供に対するクリエイターへの報酬プログラムのほとんどは、必ずしも順調とは言えません。一部のプログラムは、不透明な指標に基づいてクリエイターへの報酬を計算しており、他のプログラムは、アーティストが不当に低いと考える金額を支払っています。

Shutterstockを例に挙げましょう。AIベンダーと数千万ドル規模の契約を結んでいるこのストックメディアライブラリは、生成AIモデルの学習に使用したアートワークやサードパーティ開発者へのライセンス供与に対し、「寄稿者基金」に拠出しています。しかし、Shutterstockはアーティストの報酬額を公表しておらず、アーティストが独自の価格設定や条件を設定することも許可していません。あるサードパーティの推定によると、報酬額は2,000枚の画像で15ドルとされていますが、これは決して驚異的な額ではありません。

Source.Plusが今年後半にベータ版を終了し、PD/CC0以外のデータセットにも拡張されると、他のプラットフォームとは異なるアプローチが採用され、アーティストや権利保有者がダウンロードごとに独自の価格を設定できるようになります。Spawningは料金を徴収しますが、その額は「1セントの10分の1」という定額制だとマイヤー氏は言います。

顧客はまた、Spawning に Source.Plus Curation の月額 10 ドル (および通常の画像ダウンロード料金) を支払うこともできます。これは、画像コレクションを非公開で管理し、データセットを月に最大 10,000 回ダウンロードし、「プレミアム」コレクションやデータ強化などの新機能に早期アクセスできるサブスクリプション プランです。

産卵ソース.Plus
画像クレジット: Spawning

「私たちは現在の業界標準と社内指標に基づいたガイダンスと推奨事項を提供しますが、最終的にはデータセットへの貢献者が、自分たちにとって何が価値あるものかを判断することになります」とマイヤー氏は述べています。「アーティストに収益の大部分を還元し、参加条件を自由に設定できるようにするために、この価格設定モデルを意図的に選択しました。この収益分配は、より一般的なパーセンテージによる収益分配よりもアーティストにとってはるかに有利であり、より高い支払額と高い透明性につながると考えています。」

Source.PlusがSpawningの期待通りに普及すれば、Spawningは画像だけでなく、音声や動画など他のメディアにも対象を拡大する予定です。Spawningは現在、Source.Plusでデータを利用できるよう、匿名の企業と協議を進めています。さらに、マイヤー氏によると、Source.Plusのデータセットのデータを用いて、独自の生成AIモデルを構築する可能性もあるとのことです。

「生成型AI経済への参加を希望する権利保有者が、その機会を得て公正な報酬を受け取れるよう願っています」とマイヤー氏は述べた。「また、AIとの関わりに葛藤を感じてきたアーティストや開発者が、他のクリエイターに敬意を払いつつ、AIとの関わりを持つ機会を得られるよう願っています。」

確かに、Spawningはここでニッチな市場を切り開くことができます。Source.Plusは、アーティストを生成型AIの開発プロセスに巻き込み、彼らの作品から得られる収益を共有できるようにする、より有望な試みの一つのように思えます。

同僚のアマンダ・シルバーリングが最近書いたように、Metaがアーティストのコンテンツを含むInstagramのコンテンツで生成AIをトレーニングすると発表した後、アートホスティングコミュニティCaraのようなアプリの利用が急増したことは、クリエイティブコミュニティが限界点に達していることを示しています。彼らは、自分たちが泥棒とみなす企業やプラットフォームに代わる選択肢を切望しており、Source.Plusはまさにその選択肢となるかもしれません。

しかし、Spawningが常にアーティストの利益を最優先に考えるとすれば(SpawningはVCの支援を受けている企業であることを考えると、これは大きな「もし」ですが)、Source.Plusがマイヤー氏の構想通りにスケールアップできるかどうかは疑問です。ソーシャルメディアが私たちに教えてくれたことがあるとすれば、それはモデレーション、特に何百万ものユーザー生成コンテンツのモデレーションは解決困難な問題だということです。

すぐに分かるでしょう。