合成データの期待と危険性

合成データの期待と危険性

AIを、別のAIが生成したデータだけで学習させることは可能でしょうか?突拍子もないアイデアのように聞こえるかもしれません。しかし、これはかなり前から存在していたアイデアであり、新しい実データの入手がますます困難になるにつれて、注目を集めています。

Anthropicは、主力モデルの一つであるClaude 3.5 Sonnetの学習に合成データを使用しました。MetaはAI生成データを用いてLlama 3.1モデルを微調整しました。また、OpenAIは、次期Orion向けに、同社の「推論」モデルであるo1から合成学習データを取得するとされています。

しかし、そもそもAIはなぜデータを必要とするのでしょうか?そして、どのようなデータが必要なのでしょうか?そして、このデータは本当に合成データで置き換えられるのでしょうか?

注釈の重要性

AIシステムは統計機械です。多くの事例で訓練され、それらの事例のパターンを学習して予測を行います。例えば、メールの「~宛名」は通常「~関係者様」の前に来る、といった具合です。

これらの例において、注釈(通常はシステムが取り込むデータの意味や部分をラベル付けしたテキスト)が重要な要素となります。注釈は道標として機能し、モデルに物、場所、アイデアを区別する方法を「教える」役割を果たします。

写真分類モデルに、「キッチン」という単語のラベルが付けられたキッチンの写真を多数見せたとします。学習を進めるにつれて、モデルは「キッチン」とキッチンの一般的な特徴(例えば、冷蔵庫やカウンターがあること)を関連付け始めます。学習後、最初の例には含まれていなかったキッチンの写真を見せられた場合、モデルはそれをキッチンとして識別できるはずです。(もちろん、キッチンの写真に「牛」というラベルが付いていれば、モデルはそれを牛として識別するでしょう。これは、適切なアノテーションの重要性を強調しています。)

AIへの需要と、その開発に必要なラベル付きデータを提供する必要性から、アノテーションサービス市場は急成長を遂げています。Dimension Market Researchは、現在の市場規模は8億3,820万ドルで、今後10年間で103億4,000万ドルに達すると推定しています。ラベル付け作業に従事する人の正確な推定値は存在しませんが、2022年の論文では「数百万人」規模と推定されています。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

大小を問わず、多くの企業がデータアノテーション企業に雇用された労働者にAIトレーニングセットのラベル作成を依頼しています。こうした仕事の中には、特にラベル付けに専門知識(例えば数学の専門知識)が求められる場合は、比較的高給なものもあります。一方で、過酷な労働を強いられる場合もあります。発展途上国のアノテーターは、平均時給わずか数ドルで、福利厚生や将来の仕事の保証はありません。

乾燥データウェル

つまり、人間が生成したラベルに代わるものを模索する人道的な理由があるのです。例えば、UberはAIによるアノテーションやデータラベリングに取り組むギグワーカーの雇用を拡大しています。しかし、実用的な理由もあります。

人間がラベル付けできる速度には限界があります。アノテーターにもバイアスがあり、それがアノテーション、ひいてはそれらのアノテーションに基づいて学習されたモデルに現れる可能性があります。アノテーターはミスを犯したり、ラベリングの指示につまずいたりすることもあります。そして、人間に作業を依頼するには費用がかかります。

実際のところ、データ全般は高価です。ShutterstockはAIベンダーに対し、自社のアーカイブへのアクセス料として数千万ドルを請求しており、RedditはGoogle、OpenAIなどへのデータライセンス供与で数億ドルの利益を上げています。

最後に、データの取得も難しくなってきています。

ほとんどのモデルは、膨大な公開データを用いて学習されています。しかし、データの所有者は、盗用やクレジット表記の不備を懸念し、これらのデータへのアクセスを制限しています。現在、世界のトップ1,000ウェブサイトのうち35%以上がOpenAIのウェブスクレイパーをブロックしています。また、最近の調査によると、「高品質」ソースからのデータの約25%が、モデルの学習に使用されている主要なデータセットから除外されていることが明らかになっています。

合成代替品

一見すると、合成データがこれらすべての問題を解決してくれるように思えます。注釈が必要ですか?生成しましょう。もっとサンプルデータが必要ですか?問題ありません。可能性は無限大です。

そして、ある程度、これは真実です。

「『データが新しい石油』だとすれば、合成データはバイオ燃料として売り込まれます。本物の石油のような負の外部効果なしに生成できるのです」と、ワシントン大学で新興技術の倫理的影響を研究している博士課程の学生、オス・キーズ氏はTechCrunchに語った。「少量のデータからシミュレーションを行い、そこから新たなエントリーを推測することができます。」

AI 業界はこのコンセプトを採用し、実行してきました。

今年、エンタープライズ向け生成AI企業Writerは、ほぼ完全に合成データで学習させたモデル「Palmyra X 004」を発表しました。Writerによると、このモデルの開発費用はわずか70万ドル。これは、同規模のOpenAIモデルの開発費用が460万ドルと推定されているのと比べるとかなり高額です。

MicrosoftのPhiオープンモデルは、一部合成データを用いてトレーニングされました。GoogleのGemmaモデルも同様です。NVIDIAは今夏、合成トレーニングデータを生成するために設計されたモデルファミリーを発表し、AIスタートアップのHugging Faceは最近、合成テキストのAIトレーニングデータセットとしては最大規模であると主張するデータセットを公開しました。

合成データ生成はそれ自体がビジネスとなっており、2030年までに23億4000万ドルの価値を持つ可能性があります。ガートナーは、今年AIおよび分析プロジェクトに使用されるデータの60%が合成生成されると予測しています。

アレンAI研究所の上級研究科学者であるルカ・ソルダイニ氏は、合成データ技術を用いることで、スクレイピング(あるいはコンテンツのライセンス供与)では容易に入手できない形式のトレーニングデータを生成できると指摘した。例えば、Metaは動画生成ツールMovie Genのトレーニングにおいて、Llama 3を用いてトレーニングデータ内の映像にキャプションを作成し、その後、人間が照明の説明などの詳細を追加して調整した。

同様の流れで、OpenAIは、ChatGPTのスケッチパッドのようなCanvas機能を構築するために、合成データを使用してGPT-4oを微調整したと述べています。また、Amazonは、Alexaの音声認識モデルのトレーニングに使用する実世界データを補完するために合成データを生成していると述べています。

「合成データモデルを使用すると、特定のモデル動作を実現するためにどのデータが必要かという人間の直感を迅速に拡張することができます」とソルダイニ氏は述べています。

合成リスク

しかし、合成データは万能薬ではありません。他のAIと同様に、「ゴミを入れればゴミが出る」という問題を抱えています。モデルは合成データを作成しますが、そのモデルの学習に使用されたデータにバイアスや限界があれば、その出力も同様に汚染されます。例えば、ベースデータで十分に表現されていないグループは、合成データでも同様に表現されます。

「問題は、できることに限界があるということです」とキーズ氏は述べた。「例えば、データセットに黒人が30人しかいないとします。外挿法は役に立つかもしれませんが、もしその30人が全員中流階級だったり、全員肌の色が白かったりしたら、『代表的な』データはすべてそのようなものになってしまうでしょう。」

現時点では、ライス大学とスタンフォード大学の研究者による2023年の研究では、トレーニング中に合成データに過度に依存すると、「品質または多様性が徐々に低下する」モデルが作成される可能性があることが明らかになっています。研究者によると、サンプリングバイアス(現実世界の不適切な表現)により、数世代のトレーニング後にモデルの多様性が悪化するとのことですが(ただし、現実世界のデータを少し混ぜることで、この影響を軽減できることも判明しています)。

キーズ氏は、OpenAIのo1のような複雑なモデルには更なるリスクがあると指摘する。これらのモデルは、合成データの中に、より発見困難な幻覚を生み出す可能性があると彼は考えている。その結果、そのデータで訓練されたモデルの精度が低下する可能性がある。特に、幻覚の発生源を容易に特定できない場合はなおさらだ。

「複雑なモデルは幻覚を引き起こします。複雑なモデルによって生成されたデータには幻覚が含まれています」とキーズ氏は付け加えた。「そして、o1のようなモデルでは、開発者自身が必ずしもアーティファクトが現れる理由を説明できるとは限りません。」

幻覚が重なると、意味不明な言葉を吐き出すモデルが生まれる可能性がある。ネイチャー誌に掲載された研究は、誤りだらけのデータで訓練されたモデルが、さらに誤りだらけのデータを生成する仕組み、そしてこのフィードバックループが次世代のモデルを劣化させる仕組みを明らかにしている。研究者らは、モデルは世代を重ねるごとに難解な知識の理解を失い、より一般的な知識になり、しばしば質問とは無関係な答えを出すようになることを発見した。

画像クレジット: Ilia Shumailov 他

追跡調査では、画像ジェネレーターなどの他の種類のモデルも、この種の崩壊の影響を受けないことが示されています。

画像クレジット: Ilia Shumailov 他

ソルダイニ氏も、「生の」合成データは信頼できないことに同意している。少なくとも、忘れっぽいチャットボットや画一的な画像生成器の学習を避けることが目的であればなおさらだ。合成データを「安全」に使用するには、他のデータセットと同様に、徹底的にレビュー、キュレーション、フィルタリングを行い、理想的には最新の実データと組み合わせる必要があると彼は言う。

これを怠ると、最終的にはモデル崩壊につながる可能性があります。モデルは出力において「創造性」が低下し、バイアスがかかり、最終的には機能性が著しく損なわれる可能性があります。このプロセスは深刻化する前に特定して阻止することは可能ですが、リスクはあります。

「研究者は生成されたデータを精査し、生成プロセスを反復し、低品質のデータポイントを除去するための安全策を特定する必要があります」とソルダイニ氏は述べた。「合成データパイプラインは自己改善する機械ではありません。出力は、訓練に使用する前に慎重に検査し、改善する必要があります。」

OpenAIのCEO、サム・アルトマン氏はかつて、AIは将来、効果的に自己学習できるほど優れた合成データを生成するようになると主張した。しかし、仮にそれが実現可能だとしても、そのような技術はまだ存在しない。大手AI研究機関で、合成データのみで学習したモデルをリリースした研究はまだない

少なくとも当面は、モデルのトレーニングが失敗しないようにするために、どこかで人間が介入する必要があるようです。

TechCrunchではAIに特化したニュースレターを配信しています!  毎週水曜日に受信ボックスに配信されますので、こちらからご登録ください。

更新:この記事はもともと 10 月 23 日に公開され、12 月 24 日に詳細情報を加えて更新されました。