MLCommonsがAI医療モデルをベンチマークする新しいプラットフォームを立ち上げ

MLCommonsがAI医療モデルをベンチマークする新しいプラットフォームを立ち上げ

パンデミックが加速要因となり、医療業界はAIを積極的に導入しています。Optumの2020年の調査によると、医療機関の80%がAI戦略を策定しており、さらに15%がAI戦略の導入を計画しています。

大手テクノロジー企業を含むベンダーが、この需要に応えるべく台頭しています。Googleは最近、医療に関する質問に答え、医療文書から洞察を引き出すAIモデル「Med-PaLM 2」を発表しました。また、HippocraticやOpenEvidenceといったスタートアップ企業も、医療現場の臨床医に実用的なアドバイスを提供するモデルを開発しています。

しかし、医療用途向けに調整されたモデルが市場に投入されるにつれ、どのモデルが(そもそも存在するのかさえも)宣伝通りの性能を発揮するのかを見極めることがますます困難になっています。医療モデルは、限定的で狭い臨床現場(例えば東海岸の病院)のデータを用いて学習されることが多いため、一部のモデルは特定の患者集団(通常は少数派)に偏りを示し、現実世界では有害な影響を及ぼします。

AI業界の指標ツールの構築に注力するエンジニアリングコンソーシアムであるMLCommonsは、医療モデルのベンチマークと評価のための信頼性の高い方法を確立するために、MedPerfと呼ばれる新しいテストプラットフォームを設計しました。MLCommonsによると、MedPerfは患者のプライバシーを保護しながら、「多様な実世界の医療データ」に基づいてAIモデルを評価できるとのことです。

「私たちの目標は、ベンチマークを医療AIの強化ツールとして活用することです」と、MedPerfを主導したMLCommons医療ワーキンググループの共同議長、アレックス・カラギリス氏はプレスリリースで述べています。「大規模かつ多様なデータセットを用いた中立的かつ科学的なモデル検証は、有効性の向上、バイアスの低減、社会からの信頼の構築、そして規制遵守の支援につながります。」

MedPerfは、メディカルワーキンググループが主導する2年間の共同研究の成果であり、産業界と学界の両方からの意見を取り入れて構築されました。MLCommonsによると、20社以上の企業と20以上の学術機関からフィードバックが寄せられました。(メディカルワーキンググループのメンバーは、Google、Amazon、IBM、Intelなどの大企業に加え、ブリガム・アンド・ウィメンズ病院、スタンフォード大学、MITなどの大学にも及びます。)

MLCommonsの汎用AIベンチマークスイート(MLPerfなど)とは異なり、MedPerfはベンダーではなく、医療モデルの運用者や顧客(医療機関)向けに設計されています。MedPerfプラットフォームを利用する病院やクリニックは、「フェデレーテッド評価」を利用してリモートでモデルを展開し、オンプレミスで評価することで、AIモデルをオンデマンドで評価できます。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

MedPerf は、Epic や Microsoft の Azure OpenAI サービスなどのプライベート モデルや API 経由でのみ利用可能なモデルに加えて、一般的な機械学習ライブラリもサポートしています。

MLコモンズ MedPerf
MedPerfプラットフォームの実際の動作を示す図。画像クレジット: MLCommons

MedPerfは今年初め、システムのテストとして、NIH(国立衛生研究所)の資金提供を受けたFederated Tumor Segmentation(FeTS)チャレンジを主催しました。これは、悪性脳腫瘍である膠芽腫の術後治療を評価するためのモデルの大規模な比較です。MedPerfは今年、6大陸32の医療機関において、オンプレミスとクラウドの両方で稼働する41種類のモデルのテストを支援しました。

MLCommons によれば、すべてのモデルは、トレーニングに使用された場所とは異なる患者の人口統計を持つサイトでパフォーマンスが低下し、そこに含まれるバイアスが明らかになった。

「MedPerfの医療AIパイロットスタディの結果を見るのは大変喜ばしいことです。すべてのモデルが病院のシステム上で実行され、事前に合意されたデータ標準を活用し、データは一切共有されませんでした」と、ダナ・ファーバーがん研究所のAI運用ディレクターであり、MLCommons医療ワーキンググループのもう一人の共同議長であるレナート・ウメトン氏は声明で述べています。「この結果は、連合評価によるベンチマークが、より包括的なAI活用医療に向けた正しい方向への一歩であることを裏付けています。」

MLCommonsは、現在主に放射線スキャン分析モデルの評価に限定されているMedPerfを、「オープンで中立的かつ科学的なアプローチ」を通じて医療AIを加速させるという使命に向けた「基礎的な一歩」と捉えています。MLCommonsは、AI研究者に対し、このプラットフォームを利用して医療機関全体で独自のモデルを検証し、データ所有者に対し、患者データを登録することでMedPerfのテストの堅牢性を高めるよう呼びかけています。

しかし筆者は、MedPerf が宣伝どおりに機能すると仮定した場合(確実ではないが)、このプラットフォームが本当に医療向け AI の解決困難な問題に取り組んでいるのかどうか疑問に思っている。

デューク大学の研究者らがまとめた最近の報告書は、AIのマーケティングと、その技術を適切に機能させるまでに要する数ヶ月、時には数年にも及ぶ労力との間に、大きな隔たりがあることを明らかにしている。報告書によると、多くの場合、AIの難しさは、医師や看護師の日常業務、そして彼らを取り巻く複雑なケア提供システムや技術システムに、AI技術をどのように組み込むかを考えることにあるという。

これは新しい問題ではありません。2020年、Googleは驚くほど率直なホワイトペーパーを公開し、糖尿病網膜症のAIスクリーニングツールが実臨床での試験で不十分だった理由を詳細に説明しました。問題は必ずしもモデル自体にではなく、病院の機器の導入方法、インターネット接続の強度、さらにはAI支援による評価に対する患者の反応にありました。

当然のことながら、医療従事者(組織ではなく)は医療におけるAIについて複雑な感情を抱いています。Yahoo Financeの調査によると、55%がAI技術はまだ実用化には至っていないと考えており、信頼できると考えるのはわずか26%でした。

これは、医療モデルのバイアスが真の問題ではないと言っているわけではありません。確かに問題であり、影響を及ぼします。例えば、Epic社のような敗血症の症例を特定するシステムは、多くの症例を見逃し、頻繁に誤報を発していることが判明しています。また、GoogleやMicrosoftのような規模ではない組織にとって、モデルテストのための無料リポジトリ以外で、多様で最新の医療データにアクセスすることは容易ではありませんでした。

しかし、人々の健康に関わる分野において、MedPerfのようなプラットフォームに過大な期待を寄せるのは賢明ではありません。ベンチマークは結局のところ、全体像の一部しか語らないのです。医療モデルを安全に導入するには、ベンダーとその顧客、そして研究者による継続的かつ徹底的な監査が必要です。こうしたテストが欠如しているのは、まさに無責任と言えるでしょう。