データアノテーション、つまり画像、テキスト、音声、その他のサンプルデータにラベルを付与するプロセスは、AIシステム開発において重要なステップです。ほとんどのシステムは、ラベルを特定のデータサンプルに関連付けることで予測を学習します。例えば、「クマ」というキャプションをクロクマの写真に関連付けるといった具合です。例えば、さまざまな種類の契約に関する多数のラベル付きサンプルで訓練されたシステムは、最終的にはそれらの契約を区別できるようになり、さらにはこれまで見たことのない契約にも外挿できるようになります。
問題は、アノテーション作業は手作業で労働集約的なプロセスであり、これまでAmazon Mechanical Turkなどのプラットフォームでギグワーカーに委ねられてきたことです。しかし、AI、そしてそのAIの学習に用いられるデータへの関心が高まるにつれ、アノテーションとラベル付けのためのツールを中心とした産業が勃興しました。
新興市場での足場を築こうと競い合う多くのスタートアップ企業の一つであるDataloopは本日、Nokia Growth Partners (NGP) CapitalとAlpha Wave Globalが主導するシリーズBラウンドで3,300万ドルを調達したことを発表しました。Dataloopは、データ準備の一部を自動化するソフトウェアとサービスを開発し、AIシステム開発プロセスの時間短縮を目指しています。
「私はインテルで13年以上働いていましたが、そこでDataloopの2人目の共同創業者兼CPOであるアヴィ・ヤシャールと出会いました」と、DataloopのCEOであるエラン・シュロモ氏はTechCrunchのメールインタビューで語った。「アヴィと共にインテルを去り、Dataloopを設立しました。CBOのニール・ブスキは、テクノロジー企業で幹部職を歴任し、ベンチャーキャピタルの支援を受けたスタートアップ企業で事業と市場開拓をリードした後、3人目の共同創業者として当社に加わりました。」
Dataloopは当初、コンピュータービジョンとビデオ分析のためのデータアノテーションに重点を置いていました。しかし近年、テキスト、音声、フォーム、ドキュメントデータ向けの新しいツールを追加し、顧客が社内で開発したカスタムデータアプリケーションを統合できるようにしました。
Dataloop プラットフォームに最近追加された機能の一つに、非構造化データ用のデータ管理ダッシュボードがあります。(構造化データ、つまり標準化された形式で整理されたデータとは異なり、非構造化データは共通のモデルやスキーマに従って整理されていません。)各ダッシュボードには、データのバージョン管理やメタデータの検索ツールに加え、データセットのクエリやデータサンプルの視覚化のためのクエリ言語も用意されています。

「すべてのAIモデルは、データのラベリングプロセスを通じて人間から学習します。ラベリングプロセスとは、本質的には知識の符号化プロセスであり、人間が肯定的なデータ例と否定的なデータ例を用いて機械にルールを教えるプロセスです」とシュロモ氏は述べています。「あらゆるAIアプリケーションの第一の目標は、顧客のデータを用いて『データフライホイール効果』を生み出すことです。つまり、より良い製品がより多くのユーザーを惹きつけ、より多くのデータを生み出し、ひいてはより良い製品を生み出すのです。」
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日
Dataloopは、データアノテーションおよびラベリング分野の大手企業と競合しており、その中にはベンチャーキャピタルから6億ドル以上を調達したScale AIも含まれています。Labelboxもまた、ソフトバンクが主導する資金調達ラウンドで1億1000万ドル以上を調達した、もう一つの主要ライバルです。スタートアップ企業以外にも、Google、Amazon、Snowflake、Microsoftといった大手テクノロジー企業が独自のデータアノテーションサービスを提供しています。
データループは何か正しいことをしているに違いない。シュロモ氏は、同社は現在、小売、農業、ロボット工学、自動運転車、建設など多岐にわたる「数百」の顧客を抱えていると主張しているが、売上高の数字は明らかにしなかった。
Dataloopのプラットフォームが、今日のデータラベリングにおける主要な課題のいくつかを解決できるかどうかは、未解決の問題です。昨年、MITから発表された論文では、データラベリングは非常に一貫性に欠ける傾向があり、AIシステムの精度を損なう可能性があることが明らかになりました。また、アノテーターがデータのラベリングを行う際に独自のバイアス(偏見)を導入していることを示唆する学術研究が増えています。例えば、アフリカ系アメリカ英語(主に黒人アメリカ人が話す現代の方言)のフレーズを、一般的なアメリカ英語の同義語よりも有害だとラベリングしてしまうなどです。こうしたバイアスは、しばしば望ましくない形で現れます。例えば、白人ユーザーよりも黒人ユーザーを禁止する可能性が高いモデレーションアルゴリズムを考えてみてください。
データラベラーの低賃金も悪名高い。オープンソースのコンピュータービジョンライブラリとしてよく知られているImageNetにキャプションを寄稿したアノテーターの時給は、中央値で2ドルだったと報告されている。
シュロモ氏は、変化を起こすのは必ずしも Dataloop 自身ではなく、Dataloop のツールを使用する企業の責任であると述べています。
「アノテーターへの低賃金は市場の失敗だと考えています。データアノテーションはソフトウェア開発と多くの共通点があり、その一つが人材が生産性に与える影響です」とシュロモ氏は述べた。「(バイアスについて言えば)AIにおけるバイアスは、AI開発者が尋ねる質問と、ラベリング会社に提供する指示から始まります。私たちはこれを『プライマリバイアス』と呼んでいます。例えば、ラベリングレシピで肌の色を尋ねない限り、色のバイアスを特定することはできません。プライマリバイアスの問題は、業界と規制当局が取り組むべき問題です。テクノロジーだけでは解決できません。」
従業員60名を擁するDataloopは、これまでにベンチャーキャピタルから5,000万ドルを調達しており、年末までに従業員数を80名に増やす計画です。
カイル・ウィガーズは2025年6月までTechCrunchのAIエディターを務めていました。VentureBeatやDigital Trendsに加え、Android Police、Android Authority、Droid-Life、XDA-Developersといった様々なガジェットブログにも記事を寄稿しています。音楽療法士のパートナーとマンハッタンに在住。
バイオを見る