ハギングフェイスが健康タスクにおける生成AIのテストベンチマークをリリース

ハギングフェイスが健康タスクにおける生成AIのテストベンチマークをリリース

生成AIモデルは医療現場にますます導入されつつありますが、場合によっては時期尚早かもしれません。早期導入者は、これらのモデルによって効率性が向上し、そうでなければ見逃されていたであろう洞察が得られると考えています。一方、批評家は、これらのモデルには欠陥やバイアスがあり、健康状態の悪化につながる可能性があると指摘しています。

しかし、患者の記録を要約したり、健康関連の質問に答えたりするようなタスクを実行するときに、モデルがどれほど役立つか、または有害であるかを知る定量的な方法はあるのでしょうか?

AIスタートアップのHugging Faceは、新たに公開されたベンチマークテスト「Open Medical-LLM」で解決策を提案しています。非営利団体Open Life Science AIとエディンバラ大学自然言語処理グループの研究者との共同開発によるOpen Medical-LLMは、医療関連の様々なタスクにおける生成AIモデルの性能評価を標準化することを目的としています。

新着:医療LLMリーダーボードを公開しました!🩺

基本的なチャットボットでは、エラーは煩わしいものです。しかし
、医療法学修士課程では、エラーは生命に関わる結果をもたらす可能性があります🩸

したがって、導入を検討する前に、医療 LLM の進歩をベンチマーク/追跡することが重要です。

ブログ: https://t.co/pddLtkmhsz

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

— クレマンティーヌ・フーリエ 🍊 (@clefourrier) 2024 年 4 月 18 日

Open Medical-LLMは 、厳密にはゼロから作成されたベンチマークではなく、既存のテストセット(MedQA、PubMedQA、MedMCQAなど)をつなぎ合わせたものです。一般的な医学知識に加え、解剖学、薬理学、遺伝学、臨床実践といった関連分野のモデルを調査するために設計されています。このベンチマークには、米国およびインドの医師免許試験や大学の生物学試験問題バンクなどの資料を基に、医学的な推論と理解を必要とする多肢選択式および自由回答形式の問題が含まれています。

「[Open Medical-LLM]は、研究者や医療従事者がさまざまなアプローチの長所と短所を特定し、この分野のさらなる進歩を促進し、最終的には患者ケアと治療結果の改善に貢献することを可能にします」とハギングフェイスはブログ投稿に書いている。

gen AIヘルスケア
画像クレジット: Hugging Face

Hugging Faceは、このベンチマークを医療分野に特化した生成AIモデルの「堅牢な評価」と位置付けています。しかし、ソーシャルメディア上の一部の医療専門家は、Open Medical-LLMに過度の期待を寄せすぎると、十分な情報に基づかない導入につながる可能性があるため、注意を促しています。

アルバータ大学神経科研修医のリアム・マッコイ氏は、Xについて、医学的な質問への回答の「人工的な環境」と実際の臨床診療の間にはかなり大きなギャップがある可能性があると指摘した。

これらの比較を直接比較することは大きな進歩ですが、医療に関する質問への回答という人工的な環境と実際の臨床実践の間には、どれほど大きなギャップがあるかを忘れてはなりません。これらの指標では捉えきれない特有のリスクについても言うまでもありません。

— リアム・マッコイ(医学博士、理学修士) (@LiamGMcCoy) 2024年4月18日

ブログ記事の共著者であるハギング・フェイスの研究科学者クレマンティーヌ・フーリエ氏も同意した。

「これらのリーダーボードは、特定のユースケースでどの[生成AIモデル]を調査すべきかの第一段階としてのみ使用されるべきですが、その後はモデルの限界と実際の状況での関連性を検証するために、より深いテスト段階が常に必要です」とフーリエ氏はXで回答しました。「医療[モデル]は患者が単独で使用すべきではなく、医師のサポートツールになるようにトレーニングされるべきです。」

これは、タイの医療システムに糖尿病網膜症のAI検査ツールを導入しようとしたGoogleの経験を思い起こさせる。

Googleは、眼の画像をスキャンし、視力低下の主な原因である網膜症の兆候を探すディープラーニングシステムを開発しました。しかし、理論的な精度は高かったものの、このツールは実世界でのテストでは実用的ではないことが判明し、結果の一貫性のなさや現場の実践との整合性の欠如により、患者と看護師の双方に不満を抱かせました。

AIスクリーニングツールが実生活でのテストで不十分だったことにGoogleの医療研究者は落胆した

米国食品医薬品局(FDA)がこれまでに承認した139のAI関連医療機器のうち、生成AIを採用したものが一つもないという事実は、示唆に富んでいます。生成AIツールの実験室でのパフォーマンスが病院や外来診療所でどのように応用されるかをテストすることは非常に困難であり、そしておそらくより重要なのは、その成果が時間の経過とともにどのように変化するかということです。

これは、Open Medical-LLMが有用性や情報価値に欠けるということではありません。結果のリーダーボードは、少なくとも、モデルが基本的な健康に関する質問にいかに的確に答えられないかを改めて示すものです。しかし、Open Medical-LLMは、他のいかなるベンチマークも、綿密に考え抜かれた実世界テストの代替にはなりません。

カイル・ウィガーズは2025年6月までTechCrunchのAIエディターを務めていました。VentureBeatやDigital Trendsに加え、Android Police、Android Authority、Droid-Life、XDA-Developersといった様々なガジェットブログにも記事を寄稿しています。音楽療法士のパートナーとマンハッタンに在住。

バイオを見る