Synthesis AI、コンピュータービジョン用合成データ生成のため1,700万ドルを調達

Synthesis AI、コンピュータービジョン用合成データ生成のため1,700万ドルを調達

AIシステムの訓練用合成データを生成するプラットフォームを開発するスタートアップ企業Synthesis AIは本日、468 Capitalがリードし、Sorenson Ventures、Strawberry Creek Ventures、Bee Partners、PJC、iRobot Ventures、Boom Capital、Kubera Venture Capitalが参加したシリーズA資金調達ラウンドで1,700万ドルを調達したと発表した。CEO兼創業者のYashar Behzadi氏は、調達資金は製品の研究開発、チーム拡大、そして特に実データと合成データの混合分野における研究拡大に充てられると述べた。

AIシステムの需要が高まるにつれ、データサイエンスにおいて合成データ、つまり現実世界から取得されたデータではなく人工的に生成されたデータが広く利用されるようになっています。そのメリットは明白です。AIシステムを開発するために現実世界のデータを収集するのはコストと労力がかかりますが、理論上はあらゆる基準に適合する合成データは無限に生成可能です。例えば、開発者は自動車などの車両の合成画像を用いて、メーカーやモデルを区別できるシステムを開発できます。

当然のことながら、ガートナーは、AIおよび分析プロジェクトの開発に使用されるデータの60%が2024年までに合成データになると予測しています。ある調査では、合成データの使用は「[AI]で増加している最も有望な汎用技術の1つ」と呼ばれています。

しかし、合成データには限界があります。実データの多くの特性を模倣することはできますが、完全なコピーではありません。また、合成データの品質は、それを作成したアルゴリズムの品質に依存します。

もちろん、ベザディ氏は、Synthesisがこれらの技術的ハードルを克服するための有意義な一歩を踏み出してきたと主張する。IT政府サービス企業SAICの元科学者であり、E Inkディスプレイを内蔵したスマートフォンケース「PopSlate」の開発者でもあるベザディ氏は、2019年にSynthesis in AIを設立した。その目標は、彼の言葉を借りれば「AIにおけるデータ問題を解決し、コンピュータービジョンのパラダイムを変革すること」だ。

「企業が新しいハードウェアやモデルを開発したり、地理的に拡大したり、顧客基盤を拡大したりするにつれて、モデルが適切に機能することを保証するために、新たなトレーニングデータが必要になります」と、ベザディ氏はTechCrunchへのメールで述べた。「企業はまた、人間中心の製品におけるモデルのバイアスや消費者のプライバシーに関する倫理的問題にも苦慮しています。次世代のコンピュータービジョンを構築するには、新たなパラダイムが必要であることは明らかです。」

ほとんどのAIシステムでは、開発プロセスにおいて、キャプションや注釈といった形で提供されるラベルが、システムに特定の物体を認識させるよう「学習」するために使用されます。通常、チームは現実世界の画像にラベルを付与する作業に手間をかけなければなりませんが、Synthesisのような合成ツールは、理論上はその必要性を排除します。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

Synthesisのクラウ​​ドベースプラットフォームは、AI、プロシージャル生成、VFXレンダリング技術を組み合わせ、ラベル付きの合成画像データを生成することを企業に提供します。例えば、顔認識や運転者監視といった課題に対処するアルゴリズムを開発している顧客向けに、Synthesisは性別、年齢、BMI、肌の色、民族性など、様々な要素を持つ約10万人の「合成人物」を生成しました。このプラットフォームを通じて、データサイエンティストはアバターのポーズだけでなく、髪型、ひげ、服装(マスクやメガネなど)、照明や仮想カメラの「レンズタイプ」といった環境要素までカスタマイズできます。

「AR、VR、メタバース分野の大手企業は、当社の多様なデジタルヒューマンと、それに付随する豊富な3D顔・体ランドマークセットを活用して、よりリアルで感情豊かなアバターを構築しています」とベザディ氏は述べています。「一方、スマートフォンやコンシューマーデバイスのお客様は、合成データを用いて様々なカメラモジュールの性能を把握しています。…当社のお客様の中には、自動車のドライバーと乗員を検知するシステムを構築している企業もあります。彼らは、車室内の様々な状況や環境における数千人の合成データを活用し、最適なカメラの配置と全体的な構成を決定し、最高のパフォーマンスを実現しています。」

合成AI
Synthesis AIのデジタルアバターの1つ。画像提供: Synthesis AI

Synthesisが推奨する分野の中には、顔認識や「感情センシング」のように、議論の的となっているものもあることを指摘しておく価値がある。顔分析において性別や人種によるバイアスは、アルゴリズムの学習に用いられるデータセットの欠陥に起因する、よく知られた現象である。(一般的に、均質な顔の構造と色を持つ人々の画像を用いて開発されるアルゴリズムは、これまで経験していない「顔のタイプ」に対してはパフォーマンスが低下する。)最近の研究では、その結果が浮き彫りになっており、一部の制作システムは黒人が表現する感情をよりネガティブなものとして分類していることが明らかになっている。Zoomのバーチャル背景やTwitterの自動写真トリミングといったコンピュータービジョンを活用したツールも、歴史的に肌の色が濃い人々を不利に扱ってきた。

「Synthesisは、より高性能なモデルの開発に加え、バイアスの低減、プライバシーの保護、アクセスの民主化を通じて、AIの倫理的な開発にも注力しています。(中略)[このプラットフォームは]、人間が関与するラベリング手法と比較して、桁違いの高速化と低コスト化を実現し、オンデマンドで完璧にラベル付けされたデータを提供します」とベザディ氏は述べています。「AIは高品質のラベル付けデータによって駆動されます。AI分野がモデル中心からデータ中心のAIへと移行するにつれ、データは競争における主要な原動力となります。」

実際、合成データは、その応用方法次第で、AIの実用化を目指す企業を悩ませる多くの開発課題を解決できる可能性を秘めています。最近、MITの研究者たちは合成データを用いて画像を分類する方法を発見しました。NVIDIAの研究者たちは、仮想環境で作成された合成データを用いてロボットに物体を拾う訓練を行う方法を研究しています。そして、ほぼすべての大手自動運転車メーカーは、路上の車両から収集する現実世界のデータを補完するためにシミュレーションデータを使用しています。

しかし、繰り返しになりますが、すべての合成データが同じように作られているわけではありません。データセットは、合成データを作成するシステムで使用できるように変換する必要があり、変換中に行われた仮定が望ましくない結果につながる可能性があります。STATのレポートによると、IBMの苦境に立たされているライフサイエンス部門であるWatson Healthは、プラットフォームのモデルが実際のデータではなく、誤った合成患者記録を使用してトレーニングされていたため、質の低い安全でないがん治療アドバイスを頻繁に提供していました。また、2020年1月の研究で、アリゾナ州立大学の研究者は、教授の画像データセットでトレーニングされたAIシステムが、非常にリアルな合成顔を作成できることを示しました。ただし、元のデータセットに含まれるバイアスを増幅したため、合成顔はほとんどが男性で白人でした。

アルバータ大学のコンピューターサイエンス助教授であるマシュー・ガズディアル氏は、Synthesis 社のホワイトペーパーでも、合成データのみでモデルをトレーニングすると、一般的にパフォーマンスが低下すると認められていると指摘しています。

「Synthesisのプラットフォームには、特に際立った特徴はありません。合成データとしてはごく標準的なものです。場合によっては、合成データを実データと組み合わせて、モデルの汎用化に役立つようにすることも可能です」と彼はTechCrunchへのメールで語った。「一般的に、私は学生たちに合成データの使用を避けるように指導しています。なぜなら、合成データを使うとバイアスが生じやすく、最終的なモデルを悪化させてしまう可能性があるからです。合成データは何らかのアルゴリズム(例えば関数)で生成されるため、モデルにとって最も学習しやすいのは、近似しようとしている実際の問題ではなく、その関数の挙動を再現することです。」

画像クレジット: Synthesis AI

データ分析プラットフォームApherisの共同創設者であるロビン・レーム氏は、悪用を防ぐために、新たな合成データセットごとに品質チェックを開発する必要があると主張しています。データセットを生成・検証する当事者は、データがどのように適用されるかについて具体的な知識を持っている必要があると彼は言います。そうでなければ、不正確で、場合によっては有害なシステムを構築するリスクがあります。

ベザディ氏も原則的には同意しているが、Synthesisがサポートするアプリケーションの数を拡大し、Mostly AI、Rendered.ai、YData、Datagen、Synthetaicといったライバル企業に打ち勝つことを視野に入れている。2,400万ドル以上の資金調達と、コンシューマー、メタバース、ロボティクス分野のフォーチュン50企業を顧客とするSynthesisは、写真加工、テレビ会議、スマートホーム、スマートアシスタントなど、新規および既存の分野をターゲットとした新製品の発売を計画している。

「Synthesis AIは、比類のない広範かつ詳細な人間代表データを有し、実用レベルの合成データを提供する頼りになるプロバイダーとしての地位を確立しています。当社は、世界最先端のコンピュータービジョン企業を支援するために、1,000万枚以上のラベル付き画像を提供してきました」とベザディ氏は述べています。「Synthesis AIは現在20名の従業員を抱えており、年末までに50名に拡大する予定です。」