SynthetaicはAIを使って膨大なデータセットのパターンを見つける

SynthetaicはAIを使って膨大なデータセットのパターンを見つける

2023年の中国の「スパイ」気球を覚えていますか?もし覚えていないなら、ここで改めておさらいしましょう。約1年前、中国から飛来した高高度気球が、ほとんど探知されることなくアメリカ領空を飛行しました。その後、米空軍によって発見され、撃墜されましたが、好奇心旺盛な一般市民が気球の出所を辿るのは困難でした。しかし、SynthetaicのようなAI企業が衛星画像を使ってそれが可能であることを示したのです。

幸運なことに、この気球騒動は Synthetaic にとって製品デモの絶好の機会となり、防衛関連企業 Booz Allen Hamilton を含む投資家の注目を集めることとなった。

今週、SynthetaicはシリーズBラウンドで1500万ドルを調達しました。このラウンドは、Lupa SystemsとTitletownTechが共同リードし、グリーンベイ・パッカーズとマイクロソフトのパートナーシップから設立されたベンチャーキャピタルで、IBM Venturesと前述のBooz Allen Hamiltonも参加しています。これによりSynthetaicの調達総額は3250万ドルとなり、CEOのCorey Jaskolski氏によると、この新たな資金は同社のコンピュータービジョン技術の商業化を加速させ、年末までに従業員数をほぼ倍増の80人に増やすために充てられる予定です。

生成される画像データの量は指数関数的に増加しており、この膨大な情報を管理・分析するための高度なAIソリューションへの需要が高まっていることを浮き彫りにしています」と、ヤスコルスキ氏はTechCrunchのメールインタビューで語った。「膨大なデータから洞察を得ることは、防衛、地理空間、ビデオセキュリティ、ドローン監視など、多くの業界にとって依然として大きな課題であり、優先事項となっています。Synthetaicの教師なし学習とデータ分析におけるAIソリューションは、進化するテクノロジー環境を戦略的に乗り切るための基盤となります。」

MIT卒業生で、ナショナルジオグラフィックの元技術ディレクターであるヤスコルスキー氏は、冒険好きなタイプだ。南極の氷山の間をスキューバダイビングし、海面下12,500フィートまで潜ってタイタニック号の残骸を探索し、ヘリコプターを使ったエベレストのナポリ側の地図作成プロジェクトを率い、水没した洞窟の奥深くまで潜り込み、マヤ文明の人身御供の犠牲者や氷河期のクマの骨格を収集してきた。 

合成
画像クレジット: Synthetaic

では、命知らずの世界旅行者であるヤスコルスキー氏がSynthetaic社を設立したきっかけは何だったのだろうか? ヤスコルスキー氏によると、その理由は至ってシンプル。世界中の情報を分類するのに役立つ可能性を秘めたAIが、手作業によるデータ注釈付けの必要性によってその発展が阻まれているという認識から生まれたという。

「人間によるラベル付けはAIトレーニングの標準です」とヤスコルスキ氏は述べた。「AIモデルが大きくなるにつれてパフォーマンスは向上しますが、内部で調整可能なパラメータが増えるため、トレーニングに必要なデータ量も増えます。長年、この問題に対する業界の解決策は、文字通り何百万人もの人間に物に四角を描いてもらい、AIをトレーニングすることでした。しかし、人間によるラベル付けデータが必要なくなったらどうなるでしょうか?」

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

2019 年に設立された Synthetaic は、ラベルを含まない衛星画像やビデオなどの大規模なデータセットの分析を自動化するように設計されたツール (Rapid Automatic Image Categorization、略して RAIC) を提供しています。 

多くのAIモデルは、複数の人(アノテーター)がデータにラベルを付けることによって学習されます。これにより、モデルは特定のアノテーション(ラベル)とデータの特性を関連付ける方法を学習します。例えば、品種ごとのアノテーションが付与された猫の写真を大量に入力したモデルは、最終的にはボブテイルとショートヘアを区別することを「学習」します。

対照的に、ユーザーは RAIC に単一の画像をフィードし、RAIC はその画像がデータセット内の他のどこに存在するかを特定します。

中国の気球の場合、これにより、Synthetaic のプラットフォームは、宇宙から見た気球のスケッチと、気球が撃墜された地域の最新の衛星画像のみを使用して、気球を発見することができました。

「RAICとは、データの量や質の制約を受けることなく、希少または複雑なデータセットを処理でき、AI開発を加速し、予測モデリングを向上させることを意味します」とヤスコルスキ氏は述べています。「これにより、RAICは、特にデータがAIの導入と実装のボトルネックとなっているユースケースにおいて、イノベーション、運用効率、そして競争優位性を推進するための戦略的資産として位置付けられます。」

モデルトレーニングにおける合成データの使用を検討している企業は Synthetaic だけではありません。

2022年4月のベンチャー投資ラウンドで1,700万ドルを調達したSynthesis AIは、様々なタイプのAIシステムを訓練するための合成データを生成するプラットフォームを開発しています。Scale AIは2年前、機械学習エンジニアが既存の実世界データセットを合成サンプルで強化できるプログラムを立ち上げました。他にも、Parallel Domainのような企業が、自動運転などの特定のユースケース向けに合成データを作成しています。

ガートナーは、AIおよび分析プロジェクトの開発に使用されるデータの60%が2024年までに合成生成されると予測しています。しかし、業界が前進する一方で、合成データの欠点や潜在的な危険性が無視されているのではないかと懸念する専門家もいます。

合成
画像クレジット: Synthetaic

アリゾナ州立大学の研究者たちは、2020年1月の研究で、教授画像のデータセットで学習させたAIシステムが、非常にリアルな顔を生成することを示しました。ただし、その顔はほとんどが白人男性のものでした。このシステムは、予想通り、主に白人男性の教授を捉えていた元のデータセットのバイアスを増幅させてしまいました。

ちなみに、Synthetaic の顧客はリスクを恐れて逃げ出したわけではありません。

このスタートアップ企業は、米国空軍と協力して地理空間データにおけるAIを活用した物体検出の試験を行ったほか、非営利環境団体であるザ・ネイチャー・コンサーバンシーと協力して、絶滅したと考えられていた鳥類の種を特定したと主張している。また、Synthetaicは空軍研究所であるAFWERXと契約を結び、衛星画像における物体ラベル付け、AIモデリング、物体検出のための技術を開発している。

ヤスコルスキー氏は、  RAICはAIプロトタイピングからドローンによる監視やコンテンツモデレーションまで、無数の分野に応用できると考えています。CNNと共同でガザの戦争映像を分析したり、Planet Labsと提携して地球画像データに基づく分析ツールを販売したりしているシンセタイク社の事例を挙げ、同社の事業はテクノロジー業界の低迷、そしてより広範なマクロ経済の逆風にも耐えうると断言します。

「Synthetaicのテクノロジーは、AIモデルのトレーニングと作成に革新的なアプローチを提供し、技術意思決定者の重要なニーズに対応します」とJaskolski氏は述べています。「経営幹部にとって、SynthetaicのRAICは、データの量や質の制約を受けることなく、希少または複雑なデータセットを処理でき、AI開発を加速し、予測モデリングを向上させることを意味します。これにより、RAICは、特にデータがAIの導入と実装のボトルネックとなっているユースケースにおいて、イノベーション、業務効率、競争優位性を推進するための戦略的資産として位置付けられます。」