ヒポクラティックはヘルスケアのための大規模な言語モデルを構築している

ヒポクラティックはヘルスケアのための大規模な言語モデルを構築している

AI、特に生成 AI はヘルスケアを変革する可能性を秘めています。

少なくとも、これはHippocratic AIの売り文句だ。同社は本日、5,000万ドルという巨額のシードラウンド資金と「数百万ドル」という評価額を背景に、ステルス状態から脱却した。General CatalystとAndreessen Horowitzが共同 で主導したこの資金調達は、医療分野向けに特別に調整されたテキスト生成モデルであるHippocraticの技術に対する大きな信頼の証左と言えるだろう。

General Catalystから生まれたHippocraticは、ジョンズ・ホプキンス大学、スタンフォード大学、Google、NVIDIAといった組織の医師、病院管理者、メディケア専門家、そしてAI研究者らによって設立されました。共同創業者兼CEOのムンジャル・シャー氏は、2010年に以前勤めていたショッピング比較サイトLike.comをGoogleに売却した後、その後10年間の大半をHippocraticの構築に費やしました。

「ヒポクラティックは、医療分野に特化した、安全性を重視した初の大規模言語モデル(LLM)を開発しました」とシャー氏はTechCrunchのメールインタビューで語った。「当社の使命は、最も安全な人工健康知能を開発し、医療へのアクセスと医療成果を劇的に向上させることです。」

歴史的に見ると、ヘルスケアにおける AI の成功はまちまちです。

英国国民保健サービス(NHS)の支援を受けるAIスタートアップ企業Babylon Healthは、自社の病気診断技術が医師よりも優れていると主張したことで、度々厳しい監視にさらされている。IBMは、技術的な問題により主要顧客とのパートナーシップが悪化したため、AIに特化したWatson Health部門を損失を出して売却せざるを得なくなった。また、OpenAIのGPT-4の前身であるGPT-3は、少なくとも1人のユーザーに自殺を促した。

シャー氏は、ヒポクラティックは診断に特化しているわけではないと強調した。むしろ、消費者向けのこの技術は、給付金や請求の説明、食事アドバイスや服薬リマインダーの提供、手術前の質問への回答、患者のオンボーディング、そして何も問題がないことを示す「陰性」の検査結果の提供といったユースケースを目的としていると彼は言う。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

ヒポクラテス
ヒポクラティックによる様々な健康診断のベンチマーク結果。画像提供:ヒポクラティック

OpenAIのChatGPTのようなAIが提供する食事関連の提案の質の低さを考えると、食事アドバイスのユースケースは正直言ってためらいました。しかし、Shah氏は、HippocraticのAIは、看護師のNCLEX-RN、米国泌尿器科学会試験、管理栄養士試験など、100以上の医療資格において、GPT-4やClaudeなどの主要な言語モデルよりも優れていると主張しています。

「言語モデルは安全でなければなりません」とシャー氏は述べた。「だからこそ、私たちは安全性に特化してモデルを構築し、医療専門家による認証を取得し、業界と緊密に連携しています。…これにより、データ保持とプライバシーポリシーが医療業界の現行基準と整合したものとなるでしょう。」

ヒポクラティックがこれを実現する方法の一つは、競合技術よりも「相手の口調を察知し」「共感を伝える」ことだとシャー氏は述べ、その一つとして、良好なベッドサイドマナー(つまり、捉えどころのない「人間味」)を「組み込む」ことを挙げている。シャー氏は、ベッドサイドマナー、特に厳しい状況下でも患者に希望を与えるようなやりとりは、健康状態に影響を与える可能性があり、実際に影響を与えていると主張している。

ベッドサイドマナーを評価するために、ヒポクラティックは、いわゆるヒューマニズムの兆候、つまり「共感を示す」や「患者の生活に個人的に関心を持つ」といったものをモデルでテストするためのベンチマークを設計しました。(もちろん、単一のテストで微妙なニュアンスを含む主題を正確に捉えることができるかどうかは議論の余地があります。)情報源を考えると当然ですが、ヒポクラティックのモデルは、GPT-4を含むヒポクラティックがテストしたすべてのカテゴリーのモデルの中で最高のスコアを獲得しました。

しかし、言語モデルは本当に医療従事者の代わりを務めることができるのだろうか?ヒポクラテスは、同社のモデルは医療専門家の監督下で訓練されているため、非常に有能であると主張し、この疑問を投げかけている。

「栄養士、請求担当者、遺伝カウンセラーなど、それぞれの職種は、現在実際にその役割を担っている人々がモデルの準備が整ったと同意した場合にのみ公開します」とシャー氏は述べています。「パンデミックでは、ほとんどの医療システムで人件費が30%上昇しましたが、収益は増加しませんでした。そのため、国内のほとんどの医療システムは財政的に苦境に立たされています。言語モデルは、現在抱えている膨大な数の欠員をより費用対効果の高い方法で補充することで、コスト削減に貢献します。」

医療従事者が同意するかどうかは分かりません。特に、前述の認定資格のいくつかにおいてヒポクラテスのモデルが低得点だったことを考えるとなおさらです。ヒポクラテスによると、このモデルは医療請求とコーディングの知識を問う認定プロフェッショナルコーダー試験で71%、病院安全研修のコンプライアンスクイズで72.7%の得点を獲得しました。

潜在的なバイアスの問題もあります。バイアスは医療業界を悩ませており、その影響は、偏った医療記録、研究、調査に基づいて訓練されたモデルに波及します。例えば、2019年の研究では、多くの病院が治療を必要とする患者を判断するために使用していたアルゴリズムが、黒人患者を白人患者よりも軽視していることが明らかになりました。

いずれにせよ、ヒポクラティック社は自社のモデルが絶対確実ではないことを明確に示してくれることを期待したい。医療のような分野では、自動化バイアスや、たとえAIが正しくても他の情報源よりもAIを信頼する傾向は、明らかに大きなリスクを伴う。

これらの詳細は、ヒポクラティックがまだ解決していない多くの課題の一つです。同社は資金調達に焦点を当てるため、パートナーや顧客に関する詳細は公表していません。モデル自体も現時点では公開されておらず、どのようなデータでトレーニングされたのか、また将来どのようなデータでトレーニングされる可能性があるのか​​についても情報がありません。(ヒポクラティックは、モデルのトレーニングには「匿名化された」データを使用すると言うだけです。)

ヒポクラティックがあまりに長い時間をかければ、TruvetaやLatentといった競合他社に遅れをとるリスクがあります。これらの競合他社の中には、リソース面で大きな優位性を持つ企業もあります。例えば、Googleは最近、Med-PaLM 2のプレビューを開始しました。同社は、数十種類の医療試験問題で専門家レベルのパフォーマンスを発揮した初の言語モデルだと主張しています。ヒポクラティックのモデルと同様に、Med-PaLM 2も医療専門家によって、医療に関する質問に正確かつ安全に回答する能力について評価されています。

しかし、ジェネラル・カタリストのマネージング・ディレクター、ヘマント・タネジャ氏は懸念を表明しなかった。

「ムンジャルと私は、医療には医療アプリケーションに特化した独自の言語モデルが必要だという信念のもと、この会社を設立しました。それは公平で、偏りがなく、安全で、社会にとって有益なものです」と彼はメールで述べた。「私たちは、『健全な』データに基づいて、それぞれの専門タスクにおいて医療専門家からの広範な人間によるフィードバックを取り入れるトレーニング手法を取り入れた、信頼性の高いAIアプリケーションの開発を目指しました。医療の世界では、『急激な変化に適応して物事を壊す』ような余裕は絶対にありません。」

シャー氏は、5,000万ドルのシードラウンドの大半は人材、コンピューティングデータ、パートナーシップへの投資に充てられると述べている。