AIデータラベリングの新興企業であるEncordは、高まる波に乗ろうとしている

AIデータラベリングの新興企業であるEncordは、高まる波に乗ろうとしている

X線写真の読み取りや血液塗抹標本の解釈のためのアルゴリズムを構築することを考える前に、機械は画像内の何が何であるかを知らなければなりません。2021年に113億ドルの民間投資を集めたヘルスケア分野におけるAIの将来性は、機械が何を探しているのかを正確に伝える、綿密にラベル付けされたデータセットなしには実現できません。

こうしたラベル付きデータセットの作成は、それ自体が産業になりつつあり、ユニコーン企業をはるかに超える企業も存在します。Yコンビネーター出身のスタートアップ企業Encordは、この流れに乗ろうとしています。コンピュータービジョンプロジェクト向けのラベル付きデータセットを生成することを目指し、Encordは独自のAI支援ラベル付けプログラム「CordVision」のベータ版をリリースしました。スタンフォード大学医学部、メモリアル・スローン・ケタリング大学、キングス・カレッジ・ロンドンでのパイロットプログラムに続き、Kheiron MedicalとViz AIでもテストされています。 

Encordは、医療画像の伝送に広く使用されているフォーマットであるDICOM画像を拡大表示できるツールセットを開発しました。このソフトウェアは、放射線科医が画像全体に注釈を付けるのではなく、画像の重要な部分だけにラベルを付けるように設計されています。

Encordは、応用物理学のバックグラウンドを持つエリック・ランドー氏とウルリック・スティグ・ハンセン氏によって2020年に設立されました。ハンセン氏は、インペリアル・カレッジ・ロンドンで、大規模な医療画像データセットの可視化を中心とした修士論文プロジェクトに取り組んでいました。ラベル付きデータセットのキュレーションにどれほどの時間がかかるのかを最初に認識したのはハンセン氏でした。

これらのラベル付きデータセットは、アルゴリズムが学習できる「グラウンドトゥルース(真実)」を提供するため重要です。ラベル付きデータセットを必要としないAI構築方法もいくつかありますが、AI(特に医療分野)は主に教師あり学習に依存しており、ラベル付きデータセットが必要となります。

ラベル付きデータセットを作成するには、複数の医師が文字通り画像を1枚ずつ確認し、関連する特徴の周囲にポリゴンを描画する必要があります。場合によっては、オープンソースツールやセンサーを使用することもできます。しかし、いずれにせよ、科学文献によると、このステップは医療AIの世界、特に放射線医学において大きなボトルネックとなっています。放射線医学はAIが大きく進歩すると予測されていたものの、大きなパラダイムシフトをもたらすことにはほとんど成功していません。

「医療界におけるAIに対する懐疑的な見方が多いことは承知しています。進歩は非常に遅いと感じています」とランドー氏はTechCrunchに語った。「そもそもトレーニングデータについて真剣に考えるアプローチに移行することで、これらのモデルの進歩を加速させることができると考えています。」

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

2021年にFrontiers in Radiology誌に掲載された論文の著者らが指摘するように、約10万枚の画像からなるデータセットにラベルを付けるには、人間のラベル付け担当者が24年分の作業量を要する。欧州核医学学会(EANM)と欧州心血管イメージング学会(EACVI)が2021年に発表した別の意見表明では、「医用画像解析においてラベル付けされたデータを取得するには、時間と費用がかかる可能性がある」と指摘されている。しかし同時に、作業をスピードアップできる新しい技術が登場していることも指摘されている。

画像クレジット: Encord DICOMラベリングプラットフォーム

皮肉なことに、これらの新しい技術自体が人工知能の一種です。例えば、2021年のFrontiers in Radiology誌に掲載された論文では、能動学習アプローチを適用することで、このプロセスを87%高速化できることが示されています。10万枚の画像の例に戻るのにかかる時間は、従来の24年ではなく、わずか3.2年です。

CordVisionは、基本的にマイクロモデリングと呼ばれる能動学習プロセスの一種です。この手法は、大まかに言うと、チームに画像の代表的な小規模サンプルをラベル付けさせることで機能します。次に、特定のAIをそれらの画像でトレーニングし、それをより大規模なデータセットに適用してAIがラベル付けを行います。その後、人間のレビュー担当者がAIの作業を確認することで、ラベル付けをゼロから行う必要がなくなります。

LanduはMediumページのブログ記事で、このことを分かりやすく解説しています。「バットマン映画に登場するバットマンを検出するアルゴリズムを想像してみてください。このマイクロモデルは、クリスチャン・ベール演じるバットマンを描いた5枚の画像で学習します。別のモデルは、ベン・アフレック演じるバットマンを認識するように学習させる、といった具合です。このように、それぞれの小さなパーツを使ってより大きなアルゴリズムを構築し、それをシリーズ全体に展開していくのです。」

「これは非常にうまく機能することが分かりました。なぜなら、非常に少ない注釈付けとプロセスのブートストラップで済むからです」と彼は語った。

エンコードは、ランドー氏の主張を裏付けるデータを公開している。例えば、キングス・カレッジ・ロンドンと共同で実施したある研究では、CordVisionとインテルが開発したラベリングプログラムを比較した。5人のラベラーが25,744枚の内視鏡ビデオフレームを処理したところ、CordVisionを使用した消化器内科医は6.4倍の速度で作業を進めた。

この手法は、COVID-19のX線写真15,521枚のテストセットにも適用され、効果を発揮しました。人間が確認したのは全体の画像のうちわずか5%でしたが、AIラベル付けモデルの最終的な精度は93.7%でした。

とはいえ、このボトルネックを認識し、AIを活用してラベリングプロセスを円滑化しようと試みている企業は、Enordだけではありません。この分野の既存企業はすでに巨額の評価額を報告しています。例えば、Scale AIは2021年に73億ドルの評価額に達し、Snorkelはユニコーン企業に成長しました。

Scale AIが合成データゲームに参入

ランドー氏によれば、同社の最大の競合相手はおそらくLabelboxだろう。TechCrunchがシリーズAの段階でLabelboxを取り上げたとき、同社は約50社の顧客を誇っていた。1月には1億1000万ドルのシリーズD資金調達を完了し、10億ドルの大台にあとわずかとなった。

CordVisionはまだ非常に小さな会社ですが、データラベリング業界の波に巻き込まれています。ランドー氏によると、同社はオープンソースツールや社内ツールを使って独自のデータラベリングを行っている企業をターゲットにしているとのことです。

同社はYコンビネーター卒業以来、シードラウンドとシリーズAラウンドで合計1710万ドルを調達している。創業者2名から20名のチームへと成長した。ランドー氏によると、Encordは資金を使い果たしているわけではない。同社は現在資金調達を行っておらず、今回の調達額でこのツールを商業化プロセスに進めるのに十分だと考えている。