テキスト画像変換AIシステム「Stable Diffusion」を開発するベンチャーキャピタルの支援を受けたスタートアップ企業Stability AIは、AIをバイオテクノロジーの最先端分野に適用するための幅広い取り組みに資金を提供しています。「OpenBioML」と呼ばれるこの取り組みの最初のプロジェクトは、DNAシーケンシング、タンパク質フォールディング、計算生化学における機械学習ベースのアプローチに焦点を当てています。
Stability AIのCEO、エマド・モスタケ氏によると、同社の創設者たちはOpenBioMLを「オープンな研究室」と表現しており、学生、専門家、研究者が参加して協力できる環境でAIと生物学の交差点を探求することを目指しているという。
「OpenBioMLは、Stabilityが支援する独立した研究コミュニティの一つです」と、Mostaque氏はTechCrunchのメールインタビューで語った。「StabilityはAIの開発と民主化を目指しており、OpenBioMLを通じて、科学、健康、医学の最先端の研究を前進させる機会を見出しています。」
Stability AIのAIシステム「Stable Diffusion」(OpenAIのDALL-E 2に類似した、テキスト記述からアートを生成するシステム)をめぐる論争を考えると、Stability AIのヘルスケア分野への初進出に警戒感を抱くのも無理はないだろう。同社はガバナンスに関して自由放任主義的なアプローチを採用しており、開発者がセレブのディープフェイクやポルノなど、システムを自由に利用できるようにしている。
これまでのスタビリティAIの倫理的に問題のある決定はさておき、医療における機械学習はまさに地雷原です。この技術は皮膚疾患や眼疾患などの診断に効果的に応用されてきましたが、アルゴリズムがバイアスを生み出し、一部の患者にとってより悪いケアにつながる可能性があることが研究で示されています。例えば、2021年4月の研究では、精神疾患患者の自殺リスクを予測するために使用される統計モデルは、白人およびアジア人患者では良好な結果を示しましたが、黒人患者では低い結果を示しました。
OpenBioMLは賢明にも、より安全な領域からスタートしています。最初のプロジェクトは以下のとおりです。
- BioLM は、自然言語処理(NLP)技術を計算生物学および化学の分野に適用することを目指しています。
- DNA-Diffusionは、テキストプロンプトからDNA配列を生成できるAIの開発を目指しています。
- LibreFoldは、DeepMindのAlphaFold 2に似たAIタンパク質構造予測システムへのアクセスを増やすことを目指している。
各プロジェクトは独立した研究者によって主導されていますが、Stability AIは、AIシステムのトレーニングのために、5,000台を超えるNvidia A100 GPUを搭載したAWSホスト型クラスターへのアクセスという形でサポートを提供しています。パルマ大学のコンピュータサイエンス学部生であり、OpenBioMLの主任研究者の一人であるニッコロ・ザニケリ氏によると、これは最終的に最大10個の異なるAlphaFold 2型システムを並列にトレーニングするのに十分な処理能力とストレージ容量になるとのことです。
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日
「多くの計算生物学研究は既にオープンソース化されています。しかし、その多くは単一の研究室レベルで行われており、そのため、通常は計算リソースの不足という制約を受けています」とザニケリ氏はTechCrunchへのメールで述べた。「私たちは、大規模な共同研究を奨励することでこの状況を変えたいと考えています。そして、Stability AIの支援により、最大規模の産業界の研究室だけがアクセスできるリソースで、こうした共同研究を支援していきたいと考えています。」
DNA配列の生成
OpenBioMLの進行中のプロジェクトの中で、マサチューセッツ総合病院とハーバード大学医学部の病理学教授ルカ・ピネロ氏の研究室が主導するDNA拡散プロジェクトは、おそらく最も野心的なプロジェクトと言えるでしょう。その目標は、生成AIシステムを用いて、DNAの「調節」配列、つまり生物体内の特定の遺伝子の発現に影響を与える核酸分子の断片の規則を学習し、適用することです。多くの疾患や障害は遺伝子の発現異常によって引き起こされますが、科学はこれらの調節配列を特定するための、ましてや変化させるための信頼できるプロセスを未だ発見していません。
DNA-Diffusionは、拡散モデルと呼ばれるAIシステムを用いて、細胞種特異的な制御DNA配列を生成することを提案しています。Stable DiffusionやOpenAIのDALL-E 2といった画像生成システムの基盤となる拡散モデルは、既存の多数のデータサンプルを破壊・復元する方法を学習することで、新しいデータ(例えばDNA配列)を生成します。サンプルを入力するにつれて、モデルは以前破壊したすべてのデータを復元し、新しいデータを生成する能力が向上します。

「拡散法はマルチモーダル生成モデルにおいて広く成功を収めており、現在では計算生物学、例えば新規タンパク質構造の生成にも応用され始めています」とザニケリ氏は述べた。「DNA拡散法を用いて、ゲノム配列への応用を検討しています。」
計画通りに進めば、DNA拡散プロジェクトは、「X型細胞で遺伝子を最大発現レベルまで活性化する配列」や「肝臓と心臓では遺伝子を活性化するが、脳では活性化しない配列」といったテキスト指示から、制御DNA配列を生成できる拡散モデルを構築する予定です。ザニケリ氏によると、このモデルは制御配列の構成要素の解釈にも役立ち、様々な疾患における制御配列の役割に関する科学界の理解を深めるのに役立つ可能性があります。
これは主に理論的な段階であることは注目に値します。タンパク質の折り畳みに拡散を応用する予備研究は有望に見えますが、まだ初期段階であるとザニケリ氏も認めています。だからこそ、AIコミュニティ全体への働きかけが求められているのです。
タンパク質構造の予測
OpenBioMLのLibreFoldは、規模は小さいものの、すぐに成果が現れる可能性が高い。このプロジェクトは、タンパク質構造を予測する機械学習システムへの理解を深め、さらにその改善方法を探ることを目指している。
同僚のデビン・コールドウェイがDeepMindのAlphaFold 2に関する記事で取り上げたように、タンパク質の形状を正確に予測するAIシステムは比較的新しいものですが、その可能性は革新的です。タンパク質はアミノ酸の配列で構成されており、生体内で様々な役割を果たすために様々な形状に折り畳まれます。アミノ酸配列がどのような形状を形成するかを決定するプロセスは、かつては困難でエラーが発生しやすい作業でした。AlphaFold 2のようなAIシステムはそれを変えました。これらのシステムのおかげで、人体のタンパク質構造の98%以上が今日科学的に解明されており、大腸菌や酵母などの生物のタンパク質構造も数十万種類が解明されています。
しかし、この種のAIを開発するために必要なエンジニアリングの専門知識とリソースを備えたグループはほとんどありません。DeepMindは、Googleの高価なAIアクセラレータハードウェアであるテンソルプロセッシングユニット(TPU)上でAlphaFold 2を数日間かけて学習させました。また、酸配列の学習データセットは、多くの場合、独占所有されているか、非商用ライセンスで公開されています。

「これは残念なことです。なぜなら、ディープマインドがリリースしたAlphaFold 2チェックポイントをベースにコミュニティが構築できたものを見れば、それはただただ信じられないことです」とザニケリ氏は、ディープマインドが昨年リリースしたトレーニング済みのAlphaFold 2モデルに言及して述べた。「例えば、リリースのわずか数日後、ソウル大学のペク・ミンギョン教授は、モデルが四次構造を予測できるトリックをTwitterで報告しました。これは、モデルがそのようなことができると予想していた人はほとんどいなかったでしょう。この種の例は他にもたくさんあるので、もしより広い科学コミュニティが、全く新しいAlphaFoldのようなタンパク質構造予測手法をトレーニングする能力を持っていたら、何を構築できるか誰にもわかりません。」
AlphaFold 2の再現を目指す2つのコミュニティプロジェクト、RoseTTAFoldとOpenFoldの成果を基に、LibreFoldは様々なタンパク質フォールディング予測システムを用いた「大規模」な実験を促進します。ザニチェッリ氏によると、ユニバーシティ・カレッジ・ロンドン、ハーバード大学、ストックホルム大学の研究者が主導するLibreFoldは、これらのシステムが何を達成し、なぜそれを実現できるのかをより深く理解することに重点を置きます。
「LibreFoldは本質的に、コミュニティのための、コミュニティによるプロジェクトです。モデルチェックポイントとデータセットのリリースについても同様です。最初の成果物のリリース開始まで1、2ヶ月しかかからないかもしれませんし、それよりも大幅に時間がかかるかもしれません」と彼は述べた。「とはいえ、私の直感では前者の方が可能性が高いと思います。」
NLPを生化学に応用する
より長期的な視点では、 OpenBioMLのBioLMプロジェクトがあります。このプロジェクトのミッションは、「NLPから派生した言語モデリング技術を生化学配列に適用する」という漠然としたものです。BioLMは、オープンソースのテキスト生成モデルを複数リリースしている研究グループEleutherAIと共同で、タンパク質配列の生成を含む様々なタスクに対応する新たな「生化学言語モデル」をトレーニングし、公開することを目指しています。
ザニチェッリ氏は、BioLMが取り組む可能性のある取り組みの例として、SalesforceのProGenを挙げています。ProGenは、アミノ酸配列を文中の単語のように扱います。2億8000万以上のタンパク質配列と関連メタデータのデータセットでトレーニングされたこのモデルは、前のアミノ酸配列から次のアミノ酸配列を予測します。これは、文頭から文末を予測する言語モデルに似ています。
Nvidiaは今年初め、数百万個の分子データセットを用いて学習させた言語モデル「MegaMolBART」をリリースしました。このモデルは、潜在的な創薬ターゲットの探索と化学反応の予測を目的としています。Metaは最近、タンパク質配列を用いてESM-2と呼ばれる自然言語処理(NLP)を学習させました。同社によれば、このアプローチにより、わずか2週間で6億個以上のタンパク質配列を予測することが可能になったとのことです。

将来を見据えて
OpenBioML の関心は幅広く(そして拡大しつつある)が、科学と医学におけるオープン リサーチの伝統に従い、「生物学における機械学習と AI のプラスの可能性を最大限に高める」という願望によって統一されていると Mostaque 氏は言います。
「研究者が能動的な学習やモデル検証のために実験パイプラインをより細かく制御できるようにしたいと考えています」とモスタケ氏は続けた。「また、現在計算生物学のほとんどを特徴づけている特殊なアーキテクチャや学習目標とは対照的に、より汎用性の高いバイオテクノロジーモデルによって、最先端の研究を推進したいと考えています。」
しかし、最近1億ドル以上を調達したVC支援のスタートアップ企業であるStability AIは、OpenBioMLを純粋な慈善事業とは考えていません。Mostaque氏は、OpenBioMLの技術が「十分に進歩し、安全性が十分に確保され、適切な時期が来たら」商業化を検討する用意があると述べています。