AI システムのトレーニングにおいてはデータこそがほぼすべてですが、期待に応える質の高い製品を生み出すのに十分なデータにアクセスすることは、資金力のある企業にとっても大きな課題です。
これはAdvex AIが解決しようとしている問題であり、生成AIと合成データを用いて「データの問題を解決する」(同社)ことを目指しています。具体的には、Advexは顧客が少量の画像サンプルを用いてコンピュータービジョンシステムを学習できるようにし、そのサンプルから数千枚の「偽の」画像を生成します。
Advexは本日、TechCrunch Disrupt 2024のStartup Battlefieldステージで正式にローンチを果たしました。同社はステルスフェーズを通じて既に数社の顧客を獲得しています。これには「大手」企業7社が含まれますが、詳細は公表できないとのことです。TechCrunchはまた、サンフランシスコを拠点とするこのスタートアップが360万ドルの資金調達を実施したことも明らかにしました。その大部分は昨年12月に実施した310万ドルのシードラウンドによるもので、Construct Capital、Pear VC、ローレン・パウエル・ジョブズ氏のEmerson Collectiveなど、著名な出資者から調達されています。
CEOのペドロ・パチューカ氏は、CTOの共同創業者であるカシム・ワニ氏と共に1年余り前にAdvexを設立し、現在6名の従業員を抱えています。これほど小規模なスタートアップが既に有償顧客を抱えて業界に参入していることは特筆すべき点です。パチューカ氏は、その成功の少なくとも一部は自身の経歴に加え、昔ながらの人脈作りと人的接触によるものだと考えています。実際、パチューカ氏は以前、バークレー大学で機械学習の研究者として勤務し、その後、DeepMindに合併される前のGoogle Brainの研究チームに加わりました。
「ROI(投資収益率)が妥当であれば、顧客は私たちを少しは信頼してくれるでしょう」とパチューカ氏は語った。「私はこの分野で多くの調査を行ってきました。以前Google Brainに所属していたこともあり、ある程度の信頼を得ています。しかし、最初はコールドメールから始め、それで最初の2つの大口顧客を獲得しました。その後はカンファレンスに参加しました。だからこそ、私は多くのカンファレンスに参加しているのです!」
パチューカ氏は、TechCrunchとのインタビューを終えた直後にヨーロッパに向かおうとしており、ミラノ(イタリア)で開催されるEuropean Conference on Computer Vision(ECCV)やシュトゥットガルト(ドイツ)で開催されるVisionなど、さまざまな会議やカンファレンスに出席する予定だった。
「ヨーロッパにはたくさんのカンファレンスがあります」とパチューカ氏は語った。「ECCVに参加するのは、基本的に学びと採用のためなんです」とパチューカ氏は付け加えた。「Visionはどちらかというと産業分野なので、販売が目的なんです」
潜在顧客には、コグネックスやキーエンスといった、AIの活用で製品強化に努めているマシンビジョンシステムの老舗開発企業が含まれます。一方で、アドベックスは、自動車メーカーや物流会社といった自社開発ツールを持つエンドユーザー企業に直接販売する可能性もあります。
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日
例えば、自動車メーカーは、自社のコンピュータービジョンシステムに車のシート素材の欠陥を認識させる必要があるかもしれません。しかし、たとえ数百枚の異なる画像にアクセスできたとしても、欠陥はどれも同じに見えません。そこで、メーカーはシートに破れのある写真を数十枚アップロードするだけで、Advexはそこから推定を行い、数千枚の「欠陥」のあるシートの写真を生成し、より広範で多様なトレーニングデータプールを構築することができます。
同じことは、石油やガスから木製家具まで、ほぼすべての製造業に当てはまります。トレーニング画像を人工的に作成することで、データ収集の時間とコストを削減することが目的です。

もちろん、合成データは新しい概念ではありませんが、AI革命が本格化する中、企業はデータギャップを埋めようとしています。これには、調査サンプルが小さすぎる可能性のある市場調査や、Advexなどの企業に見られるコンピュータービジョン、Synthesis AIやParallel DomainなどのVC支援のスタートアップなどが含まれます。
Advexが扱うモデルは、大きく分けて2種類あります。顧客のサイトに導入されるモデル、つまり顧客自身の画像でトレーニングするモデルは、パチューカ氏の言葉を借りれば、標準的な既製の「オープンソース」のものです。「これは、モデルを小さくする必要があるからです。また、私たちは、モデルのアーキテクチャから得られるメリットよりも、適切なデータを用いたトレーニングから得られるメリットの方が大きいと考えています」と彼は言います。
しかし、真の秘密は、MidjourneyやDall-Eに似た同社独自の拡散モデルにあり、合成データの作成に使用されています。「これはカスタムメイドで非常に複雑です。そこに私たちは全力を注いでいます」とパチューカ氏は付け加えました。
Advex が製造業に重点を置くことは差別化要因のひとつですが、同社が他社と一線を画しているのは、実は普及モデルのアプローチによるところが大きいと考えています。
ゲーム/物理エンジン (Unity など) に合わせた他のシミュレーションやモデリング技術と比較して、拡散を使用するとセットアップが必要なく、画像/ラベルのペアごとに生成に数秒しかかからず、さらに現実のデータに非常に近くなると Pachuca 氏は言います。
「私たちはただ画像を作るのではなく、存在しない画像を作り出しているのです。具体的には、何が欠けているのかを理解し、それを作り出すことを目指しています」とパチューカ氏は述べた。「この『何が欠けているのか』という部分は非常に難しく、目に見えない部分ですが、私たちが成し遂げた最大のイノベーションの一つです。」
ポールはロンドンを拠点とするTechCrunchのシニアライターで、主に(ただしそれだけではない)英国およびヨーロッパのスタートアップの世界に特化していました。オープンソースソフトウェアビジネスなど、情熱を注いだ他のテーマについても執筆していました。2022年6月にTechCrunchに入社する前は、The Next Web(現在はFinancial Times傘下)とVentureBeatで、コンシューマー向けおよびエンタープライズ向けテクノロジーを10年以上取材してきました。企画書の送付先:paul.sawers [at] techcrunch.com 匿名でのご連絡はSignal(PSTC.08)までお願いいたします。また、Bluesky(@jambo.bsky.social)にも参加していました。
バイオを見る