Heartex、AIに特化したオープンソースのデータラベリングプラットフォームに2500万ドルを調達

Heartex、AIに特化したオープンソースのデータラベリングプラットフォームに2500万ドルを調達

データラベリングのための「オープンソース」プラットフォームを自称するスタートアップ企業Heartexは本日、Redpoint VenturesがリードするシリーズA資金調達ラウンドで2,500万ドルを調達したことを発表しました。Unusual Ventures、Bow Capital、Swift Venturesも参加し、Heartexの調達総額は3,000万ドルとなりました。

共同創業者兼CEOのマイケル・マリュク氏は、新たに調達した資金はハーテックスの製品改良と、年末までに従業員数を28人から68人に拡大するために使われると語った。

「エンジニアリングと機械学習のバックグラウンドを持つ[Heartexの創業チーム]は、機械学習とAIが組織にどのような価値をもたらすかを理解していました」と、Malyuk氏はTechCrunchへのメールで語った。「当時、私たちはそれぞれ異なる企業、異なる業界で働いていましたが、質の低いトレーニングデータによるモデルの精度向上という共通の課題を抱えていました。そこで、唯一の現実的な解決策は、専門知識を持つ社内チームにトレーニングデータのアノテーションとキュレーションを任せることだと合意しました。社内の専門家以外に、誰が最高の結果を提供できるでしょうか?」

ソフトウェア開発者のマリュク氏、マキシム・トカチェンコ氏、ニコライ・リュビモフ氏の3人は、2019年にHeartexを共同設立した。リュビモフ氏はヤンデックスに移籍する前はファーウェイでシニアエンジニアを務め、そこで音声技術と対話システムのバックエンド開発者として働いていた。

ハーテックス
Heartexのダッシュボード。画像提供: Heartex

「ロシアのGoogle」とも呼ばれるYandexとのつながりは、一部の人々を不安にさせるかもしれない。特に、Yandexのニュース部門がクレムリンのプロパガンダ拡散に大きな役割を果たしたという欧州連合(EU)の非難を踏まえるとなおさらだ。Heartexはカリフォルニア州サンフランシスコにオフィスを構えているが、同社のエンジニアの何人かは旧ソ連のジョージア共和国に拠点を置いている。

Heartex社に問い合わせたところ、同社は顧客データは一切収集しておらず、検査のためにラベリングプラットフォームの中核部分をオープンソース化していると回答した。「データプレーンとコントロールプレーンを分離し、顧客のストレージ上でデータを非公開に保つデータアーキテクチャを構築しました」とMalyuk氏は付け加えた。「チームとその所在地についてですが、私たちは非常に国際的なチームであり、現在ロシアに拠点を置くメンバーはいません。」

Heartexは、地政学的な関係性を脇に置きつつ、Malyuk氏が企業にとって大きな課題と捉えている、AIを活用したデータからの価値抽出という課題に取り組むことを目指しています。「データセントリック」を目指す企業が増えており、Gartnerは最近、企業におけるAIの活用が過去数年間で270%という驚異的な増加を記録したと報告しています。しかし、多くの組織はAIを最大限に活用することに苦戦しています。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

「アルゴリズムに特化した開発における収益が逓減期に達した今、企業は戦略的かつデータ中心の取り組みの一環として、データラベリングの完成に投資しています」とマルユク氏は述べた。「これは、アルゴリズムの開発とチューニングにほぼ重点を置いていた以前の開発手法からの進歩です。」

マルユク氏が主張するように、AIを推進する企業がデータラベリングに注目し始めているのは、ラベリングがAI開発プロセスの中核を成すからだ。多くのAIシステムは、人間のアノテーターチームによってラベリングされた例から、画像、動画、テキスト、音声の意味を「学習」する。ラベル付けによって、システムは例間の関係性(例えば、「キッチンシンク」というキャプションとキッチンシンクの写真の関連性)を、システムがこれまで見たことのないデータ(例えば、モデルを「学習」するために使用されたデータには含まれていなかったキッチンシンクの写真)へと外挿することができる。

問題は、すべてのラベルが同じように作られているわけではないということです。法的契約書、医療画像、科学文献などのデータにラベルを付けるには、専門知識が求められ、誰でもラベルを付けられるとは限らないのです。そして、人間である以上、ラベルを付ける人も間違いを犯します。MITが人気のAIデータセットを分析したところ、ある犬種を別の犬種と間違えたり、アリアナ・グランデの高音をホイッスルとして分類したりするなど、ラベルが誤っているデータが見つかりました。

画像クレジット: Heartex

マルユク氏は、Heartexがこれらの問題を完全に解決するとは主張していません。しかし、インタビューの中で、このプラットフォームはデータ品質管理、レポート、分析に関わる機能を備え、様々なAIユースケースのラベリングワークフローをサポートするように設計されていると説明しました。例えば、Heartexを使用するデータエンジニアは、アノテーターやデータレビュアーの名前とメールアドレスを確認できます。これらの情報は、彼らが提供または監査したラベルに関連付けられています。これにより、ラベルの品質を監視し、理想的には、問題がトレーニングデータに影響を与える前に修正することができます。

「経営幹部にとっての視点は非常にシンプルです。プロジェクトのビジネス目標達成に向けて、本番環境のAIモデルの精度を向上させることがすべてです」とマルユク氏は述べています。「AI、機械学習、データサイエンスの責任を担う経営幹部のほとんどが、人材、プロセス、テクノロジー、データへの戦略的な投資を増やすことで、AIは多様なユースケースにおいてビジネスに計り知れない価値をもたらすことを経験を通して確信しています。また、成功は雪だるま式に大きくなることも分かっています。早期に成功を収めたチームは、初期の学習だけでなく、本番環境モデルの使用から得られる追加データに基づいて、より迅速に高価値なモデルを構築することができます。」

データラベリングツールセットの分野では、HeartexはAIMMO、Labelbox、Scale AI、Snorkel AIといったスタートアップ企業に加え、GoogleやAmazon(それぞれGoogle CloudとSageMakerを通じてデータラベリング製品を提供)とも競合しています。しかし、Malyuk氏は、Heartexがサービスではなくソフトウェアに重点を置いていることが他社との差別化要因だと考えています。多くの競合他社とは異なり、Heartexは自社プラットフォームを通じてラベリングサービスを販売していません。

「真に水平展開可能なソリューションを構築しているため、顧客は様々な業界に及びます。小規模なスタートアップ企業から、フォーチュン100企業数社まで、幅広い顧客を抱えています。[当社のプラットフォーム]は、世界中で10万人以上のデータサイエンティストに採用されています」とマルユク氏は述べましたが、売上高の数字は明らかにしませんでした。「[当社の顧客]は、実稼働AIモデルのパフォーマンスが芳しくなく、トレーニングデータの品質の低さが主な原因であると認識しているため、社内にデータアノテーションチームを立ち上げ、[当社の製品]を購入しています。」

カイル・ウィガーズは2025年6月までTechCrunchのAIエディターを務めていました。VentureBeatやDigital Trendsに加え、Android Police、Android Authority、Droid-Life、XDA-Developersといった様々なガジェットブログにも記事を寄稿しています。音楽療法士のパートナーとマンハッタンに在住。

バイオを見る