マイクロソフト、新しいタンパク質生成AI「EvoDiff」をオープンソース化

マイクロソフト、新しいタンパク質生成AI「EvoDiff」をオープンソース化

タンパク質は、体内で重要な細胞機能を担う天然分子であり、あらゆる疾患の構成要素です。タンパク質の特性を明らかにすることで、疾患の進行を遅らせたり、場合によっては回復させたりする方法など、疾患のメカニズムを解明することができます。また、タンパク質を新規に創出することで、全く新しい種類の医薬品や治療薬の開発につながります。

しかし、研究室でタンパク質を設計する現在のプロセスは、計算面でも人的資源面でもコストがかかります。まず、体内で特定の機能を果たす可能性の あるタンパク質構造を考え出し、次に、その構造に「折り畳まれる」可能性のあるタンパク質配列(タンパク質を構成するアミノ酸の配列)を見つけ出す必要があります。(タンパク質は、意図された機能を果たすために、三次元形状に正しく折り畳まれなければなりません。)

必ずしもこれほど複雑である必要はありません。

今週、マイクロソフトは汎用フレームワーク「EvoDiff」を発表しました。同社によると、タンパク質配列を入力とすることで「高忠実度」かつ「多様性」のあるタンパク質を生成できるとのことです。他のタンパク質生成フレームワークとは異なり、EvoDiffは標的タンパク質の構造情報を一切必要としないため、通常は最も手間のかかるステップを省略できます。

オープンソースで利用可能なEvoDiffは、新しい治療法や薬物送達方法のための酵素、さらには工業用化学反応のための新しい酵素の作成に使用できる可能性があると、マイクロソフトの上級研究員ケビン・ヤン氏は語る。

「EvoDiffは、タンパク質工学における機能を、構造と機能というパラダイムを超えて、プログラム可能な配列優先設計へと拡張すると考えています」と、EvoDiffの共同開発者の一人であるヤン氏は、TechCrunchとのメールインタビューで語った。「EvoDiffによって、新しいタンパク質を制御的に設計するには、実際には構造は必要なく、『タンパク質配列さえあれば十分』という可能性を実証しています。」

EvoDiffフレームワークの中核は、あらゆる種と機能クラスのタンパク質のデータでトレーニングされた6億4000万のパラメータモデルです。(「パラメータ」とは、トレーニングデータから学習するAIモデルの一部であり、本質的には問題(この場合はタンパク質の生成)に対するモデルのスキルを定義します。)モデルをトレーニングするためのデータは、配列アライメント用のOpenFoldデータセットと、UniProtコンソーシアムが管理するタンパク質配列と機能情報のデータベースであるUniProtのデータのサブセットであるUniRef50から取得されました。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

EvoDiff は拡散モデルであり、その構造は Stable Diffusion や DALL-E 2 などの多くの最新の画像生成モデルに似ています。EvoDiffは、ほぼ完全にノイズで構成された開始タンパク質から徐々にノイズを減らす方法を学習し、タンパク質配列にゆっくりと段階的に近づけていきます。

マイクロソフト EvoDiff
EvoDiffがタンパク質を生成するプロセス。画像クレジット: Microsoft EvoDiff

拡散モデルは、EvoDiff のような新しいタンパク質の設計から音楽の作成、さらには音声の合成まで、画像生成以外の領域にもますます応用されつつあります。

「EvoDiffから得られるものが一つあるとすれば、それは、私たちが実現できる汎用性、スケール、そしてモジュール性ゆえに、配列ではなくタンパク質生成が可能であり、またそうすべきだという考え方でしょう」と、EvoDiffのもう一人の共同貢献者であるマイクロソフトのシニアリサーチャー、アヴァ・アミニ氏はメールで述べた。「私たちの拡散フレームワークは、それを実現するだけでなく、特定の機能目標を満たすタンパク質の設計方法を制御する能力も提供します。」

アミニ氏の指摘によれば、EvoDiffは新しいタンパク質を創り出すだけでなく、既存のタンパク質設計におけるいわば「ギャップ」を埋めることもできる。例えば、あるタンパク質の別のタンパク質に結合する部位を与えると、このモデルは、その部位を中心として、一連の基準を満たすタンパク質のアミノ酸配列を生成することができる。

EvoDiffはタンパク質の構造ではなく「配列空間」でタンパク質を設計するため、最終的な三次元構造に折り畳まれない「不規則タンパク質」も合成できます。正常に機能するタンパク質と同様に、不規則タンパク質は他のタンパク質の活性を増強または低下させるなど、生物学や疾患において重要な役割を果たします。

ここで注目すべきは、EvoDiffの背後にある研究は、少なくとも今のところは査読を受けていないということです。このプロジェクトに貢献したマイクロソフトのデータサイエンティスト、サラ・アラムダリ氏は、このフレームワークを商用利用できるようになるまでには「まだまだスケーリングのための作業」が必要だと認めています。

「これは6億4000万パラメータのモデルに過ぎませんが、数十億パラメータにスケールアップすれば、生成品質が向上する可能性があります」とアラムダリ氏はメールで述べた。「粗粒度の戦略をいくつか実証しましたが、さらにきめ細かな制御を実現するには、テキスト、化学情報、あるいはその他の方法でEvoDiffに条件付けを行い、目的の機能を指定する必要があります。」

EvoDiffチームは次のステップとして、モデルが生成したタンパク質を実験室でテストし、それらが生存可能かどうかを判断する予定です。生存可能であることが判明した場合、次世代のフレームワークの開発に着手する予定です。

カイル・ウィガーズは2025年6月までTechCrunchのAIエディターを務めていました。VentureBeatやDigital Trendsに加え、Android Police、Android Authority、Droid-Life、XDA-Developersといった様々なガジェットブログにも記事を寄稿しています。音楽療法士のパートナーとマンハッタンに在住。

バイオを見る