DeepMindは、AlphaFoldによって折り畳まれたヒトプロテオーム全体をオンラインで公開しました。

DeepMindは、AlphaFoldによって折り畳まれたヒトプロテオーム全体をオンラインで公開しました。

DeepMindと複数の研究パートナーは、昨年実証された画期的なタンパク質フォールディングシステム「AlphaFold」によって計算的に決定された、人体を構成するほぼすべてのタンパク質の3D構造を含むデータベースを公開しました。この無料で利用可能なデータベースは、数百もの分野と領域の科学者にとって大きな進歩と利便性をもたらし、生物学と医学の新たな段階の基盤となる可能性を秘めています。

AlphaFold タンパク質構造データベースは、DeepMind、欧州バイオインフォマティクス研究所などが共同で作成したもので、AlphaFold によって構造が予測された数十万のタンパク質配列から構成されています。今後、さらに数百万の配列を追加して「世界のタンパク質年鑑」を作成する予定です。

「この研究は、AIがこれまで科学的知識の進歩に果たしてきた最も重要な貢献であり、AIが社会にもたらすことができる恩恵の素晴らしい例であると信じています」とディープマインドの創業者兼CEOのデミス・ハサビス氏は述べた。

ゲノムからプロテオームへ

プロテオミクス全般に馴染みがない方(そうであれば当然ですが)は、おそらくもう一つの大きな取り組み、すなわちヒトゲノムの解読を例に挙げて考えるのが一番でしょう。1990年代後半から2000年代初頭にかけて、世界中の多くの科学者や組織が長年かけて取り組んだ壮大なプロジェクトだったことをご記憶の方もいらっしゃるかもしれません。ついに解読が完了したゲノムは、数え切れないほど多くの疾患の診断と理解、そしてそれらの治療薬や治療法の開発に大きく貢献してきました。

しかし、それはこの分野の研究のほんの始まりに過ぎませんでした。まるで巨大なパズルの端のピースをすべて完成させるかのようでした。そして、当時誰もが注目していた次の大きなプロジェクトの一つは、ヒトプロテオームの解明でした。ヒトプロテオームとは、人体で使用され、ゲノムにコード化されているすべてのタンパク質のことです。

プロテオームの問題は、それがはるかに複雑であるということです。DNAと同様に、タンパク質は既知の分子の配列です。DNAではこれらは少数の馴染みのある塩基(アデニン、グアニンなど)ですが、タンパク質では20種類のアミノ酸(それぞれが遺伝子内の複数の塩基によってコードされています)です。それ自体が複雑さを増大させますが、これはほんの始まりに過ぎません。配列は単なる「コード」ではなく、実際には小さな分子折り紙機械のようにねじれ、折り畳まれ、私たちの体内であらゆるタスクを実行します。これは、バイナリコードから、現実世界のオブジェクトを表現する複雑な言語へと移行するようなものです。

実用的に言えば、これはプロテオームが数百種類の酸からなる2万個の配列で構成されているだけでなく、それぞれの配列が物理的な構造と機能を持っていることを意味します。そして、それらを理解する上で最も難しい部分の一つは、与えられた配列がどのような形をしているのかを解明することです。これは通常、X線結晶構造解析などの実験的な手法を用いて行われますが、これは非常に長く複雑なプロセスであり、最高の研究室と技術を利用できる場合でも、単一のタンパク質を解明するのに数ヶ月以上かかることがあります。構造は計算によって予測することも可能ですが、AlphaFoldが登場するまでは、実際に信頼できるほど優れた方法ではありませんでした。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

アルファベットのDeepMindがAIベースのタンパク質構造予測で歴史的な新マイルストーンを達成

分野を驚かせる

計算プロテオミクスの歴史全体を掘り下げることは(できれば詳しく書きたいのですが)、15年前の分散型の力ずくの手法(Folding@homeを覚えていますか?)から、ここ10年でより洗練されたプロセスへと移行しました。その後、AIベースのアプローチが登場し、2019年にはDeepMindのAlphaFoldが世界中の他のすべてのシステムを凌駕し、大きな話題となりました。そして2020年にはさらなる飛躍を遂げ、十分な精度と信頼性を達成したため、一部の専門家は任意の配列を3D構造に変換するという問題を解決したと宣言しました。

この長い歴史は当時広く報道されていたため、ここでは1段落にまとめていますが、この進歩がいかに突然で、かつ完全なものであったかは、言葉では言い表せないほどです。これは何十年にもわたって世界中の優秀な研究者を悩ませてきた問題であり、「一応は機能するアプローチはあるかもしれないが、非常に時間がかかり、多大なコストがかかる」という状況から、「正確で信頼性が高く、市販のコンピュータで実行できる」という状況へと、わずか1年の間に変化したのです。

AlphaFoldによって予測されたタンパク質構造の例
画像クレジット: DeepMind

DeepMindの進歩の詳細とその達成方法については、計算生物学とプロテオミクスの専門家に委ねたいと思います。彼らは今後数ヶ月、数年かけてこの研究を詳細に分析し、反復的に改良していくことは間違いありません。今日私たちが懸念しているのは、その実用的な結果です。同社はAlphaFold 2(2020年に発表されたバージョン)の発表以来、モデルの微調整だけでなく、入手可能なあらゆるタンパク質配列に対してモデルを動作させることに時間を費やしてきました。

その結果、ヒトプロテオームの98.5%がいわゆる「フォールディング」された状態になりました。これは、AIモデルが(そして重要なのは、私たちもその信頼性に十分自信を持っているという点です)実際の構造を予測できる構造が存在することを意味します。ちなみに、彼らは酵母や大腸菌など、他の20種の生物のプロテオームもフォールディングし、合計約35万個のタンパク質構造を解析しました。これは、この極めて重要な情報のコレクションとしては、桁違いに最大かつ最良のものです。

これらはすべて、自由に閲覧可能なデータベースとして公開され、研究者は配列名またはタンパク質名を入力するだけで、即座に3D構造を得ることができます。このプロセスとデータベースの詳細は、本日Nature誌に掲載された論文をご覧ください。

「明日ご覧いただくデータベースは検索バーのようなもので、まるでタンパク質構造のGoogle検索のようなものです」とハサビス氏はTechCrunchのインタビューで述べた。「3Dビジュアライザーで表示したり、ズームしたり、遺伝子配列を調べたりできます。EMBL-EBIでこれを行う利点は、他のすべてのデータベースにリンクされていることです。つまり、関連する遺伝子をすぐに見ることができます。そして、他のすべてのデータベースにリンクされているので、関連する遺伝子、他の生物に関連する遺伝子、関連する機能を持つ他のタンパク質などを見ることができます。」

「私自身、ほとんど理解不能なタンパク質を研究している科学者として」と、EMBL-EBIのエディス・ハード氏は述べた(具体的なタンパク質名は明かさなかった)。「タンパク質の本質的な部分を、これほど短期間で解明できるというのは、本当に素晴らしいことです。これまでは何年もかかっていたでしょう。構造にアクセスして『ああ、これが本質的な部分だ』と分かるようになったので、その本質的な部分が何をするのかを解明することに集中できるのです。これは、数十年前にゲノム配列を解読できたのと同じように、科学を数年単位で加速させていると思います。」

これを実現できるというアイデア自体が非常に新しいため、ハサビス氏は、この分野全体が変わり、それに伴ってデータベースも変わると確信していると述べた。

「構造生物学者は、実験的に何年もかけて物事を解明するのではなく、ほんの数秒で何でも調べられるという考えにまだ慣れていません」と彼は言った。「そして、これは、問いかけられる疑問や実行できる実験に対する全く新しいタイプのアプローチにつながるはずです。そのことに気づき始めれば、こうした偶然の発見に応える他のツールの開発を始めるかもしれません。例えば、特定の方法で関連する1万個のタンパク質を調べたい場合、どうすればいいでしょうか? 今のところ、そのような質問をする人はまずいないので、それを実現する一般的な方法は存在しません。ですから、私たちは新しいツールの開発を始めなければならないでしょう。人々がこのツールとどのように関わっていくかが見え始めれば、その需要は高まるでしょう。」

これには、ソフトウェア自体の派生版や段階的に改良されたバージョンも含まれ、長い開発履歴とともにオープンソースとして公開されています。ワシントン大学ベイカー研究所の研究者らは、昨年のAlphaFoldの性能を外挿し、AlphaFoldと同等でありながらより効率的なシステム「RoseTTAFold」を独自に開発しました。ただし、DeepMindが最新バージョンで再びリードを奪ったようです。しかし、その秘密は誰でも利用できるように公開されているという点が強調されました。

研究者らは、DeepMindのAlphaFold2タンパク質折り畳み能力を、より高速で無料で利用できるモデルと同等にすることに成功した。

実践的な魔法

構造バイオインフォマティクス研究者が長年の夢を実現できるという見通しは心温まるものですが、DeepMindとEMBL-EBIの取り組みには、実際に即時かつ現実的なメリットがあることを指摘しておくことが重要です。その成果は、おそらく顧みられない病気のための新薬開発イニシアチブ(Drugs for Neglected Diseases Initiative)との提携に最もよく表れています。

ご想像のとおり、DNDIは、大手製薬会社や医療研究機関からの注目や投資を得られず、治療法の発見につながる可能性が低い疾患に焦点を当てています。これは、希少疾患であること、あるいは何百万人もの患者がいるにもかかわらず、患者が貧困のため収益化できないことが理由かもしれません。

「これは臨床遺伝学において非常に現実的な問題です。罹患した子供に一連の変異や変化が疑われる場合、どの変異が特定の遺伝性疾患の原因である可能性が高いのかを解明しようとします。広範な構造情報が得られれば、その方法が確実に改善されるでしょう」と、EMBL-DBIのユアン・バーニー氏は発表前の記者会見で述べた。

通常、特定の問題の根本原因と疑われるタンパク質を調べるには費用と時間がかかります。また、比較的少数の患者しか罹患しない疾患の場合、費用と時間は限られていますが、がんや認知症関連疾患といったより一般的な問題には適用できます。しかし、健康なタンパク質10種類とその変異タンパク質10種類の構造を簡単に呼び出すことができれば、そうでなければ何年もかけて苦労して実験していたであろう知見が、数秒で得られるかもしれません。新薬の発見と試験のプロセスには依然として何年もかかりますが、現在治療不可能な疾患に対して、2025年ではなく明日から始めることができるかもしれません。

(更新: このスペースで DNDI に関するいくつかの小さなエラーを修正しました。)

酵母におけるRNAポリメラーゼII(タンパク質)の作用を示す図。画像提供:ゲッティイメージズ / JUAN GAERTNER/SCIENCE PHOTO LIBRARY

実験的に検証されていない結果をコンピューターが予測することに頼りすぎていると思われないように、全く別のケースでは、骨の折れる作業の一部はすでに行われていました。DeepMindが別の潜在的なユースケースで提携したポーツマス大学のジョン・マギーハン氏は、これが彼のチームのプラスチック分解に関する研究にどのような影響を与えたかを説明しました。

「DeepMindチームに7つの配列を初めて送ったとき、そのうち2つについては既に実験的な構造が完成していました。そのため、返送された配列をテストすることができました。正直に言って、背筋が凍るような思いでした」とマギーハン氏は語った。「彼らが生成した構造は、私たちの結晶構造と全く同じだったからです。実際、場合によっては結晶構造が提供できる以上の情報が含まれていました。その情報を直接利用して、プラスチックを分解するより高速な酵素を開発することができました。そして、これらの実験は既にすぐに開始されています。ですから、このプロジェクトの加速は、数年単位と言えるでしょう。」

計画では、今後1、2年かけて、既知の配列が解読されているタンパク質(約1億個)すべてについて予測を行う予定です。そして、その大半(このアプローチでは特定できない少数の構造はすぐに明らかになるようですが)については、生物学者は結果に大きな信頼を置くことができるはずです。

分子構造を3Dで調べることは数十年前から可能でしたが、そもそもその構造を見つけることは困難でした。画像クレジット: DeepMind

AlphaFoldが構造予測に用いるプロセスは、場合によっては実験的な手法よりも優れています。AIモデルがどのように結果を導き出すのかにはある程度の不確実性がありますが、ハサビス氏はこれが単なるブラックボックスではないことを明確にしました。

「今回のケースでは、説明可能性は機械学習ではよくあるように、単にあれば良いというレベルではなく、私たちがそれを使いたい目的の深刻さを考えると、必須の要素だったと思います」と彼は述べた。「ですから、特定のシステムにおいて説明可能性を証明するために、これまでで最も多くのことを行ったと思います。つまり、アルゴリズムの詳細なレベルでの説明可能性と、出力、予測、構造、そしてそれらをどれだけ信頼すべきか、あるいは信頼すべきでないか、そしてどの領域が予測の信頼できる領域であるかという点の両方において、説明可能性が実現されているのです。」

それでも、彼がこのシステムを「奇跡的」と表現したことは、見出しになる言葉に対する私の特別な感覚を刺激しました。ハサビス氏は、プロセス自体に奇跡的なところは何もないが、彼らの努力がこれほど強力なものを生み出したことに少し驚いていると述べました。

「これはこれまでで断然一番大変なプロジェクトでした」と彼は言った。「コードやシステムの仕組みを隅々まで理解し、すべての出力を確認できたとしても、実際に何が起きているのかを見ると、やはり奇跡のように思えます。この1次元のアミノ酸鎖から、こんなに美しい3次元構造が生み出されているのです。その多くは、美的に信じられないほど美しく、科学的にも機能的にも価値があります。ですから、これは一種の驚異と言えるでしょう。」

折り重ね

AlphaFoldとプロテオームデータベースの影響が広く感じられるようになるまでには、まだしばらく時間がかかるでしょう。しかし、初期のパートナーたちが証言しているように、短期的および長期的な大きなブレークスルーにつながることはほぼ確実です。しかし、だからといってプロテオームの謎が完全に解明されたわけではありません。決してそうではありません。

前述のように、ゲノムの複雑さは、根本的なレベルではプロテオームの複雑さに比べれば取るに足らないものですが、この大きな進歩をもってしても、プロテオームはまだ表面をなぞったに過ぎません。AlphaFoldは、非常に具体的でありながら非常に重要な問題を解決します。それは、アミノ酸配列が与えられた場合、その配列が実際にどのような3D形状をとるかを予測することです。しかし、タンパク質は真空中で存在しているわけではありません。複雑で動的なシステムの一部であり、その中で構造を変化させ、分解と再形成を繰り返し、条件、要素、または他のタンパク質の存在に反応し、そしてそれらを中心に自らを再構築しています。

実際、AlphaFold が予測に中程度の信頼度しか与えなかったヒトタンパク質の多くは、根本的に「無秩序」なタンパク質である可能性があり、より静的なタンパク質のようには定義できないほど変動が激しい(その場合、予測は当該タイプのタンパク質に対する高精度な予測因子として検証される)。そのため、研究チームには多くの課題が残されている。

「新たな問題に目を向け始める時が来ました」とハサビス氏は述べた。「もちろん、新たな課題は山ほどあります。しかし、先ほどおっしゃったタンパク質相互作用、タンパク質複合体、リガンド結合といった課題については、実際に全てに取り組んでおり、これらのテーマ全てにおいて初期段階のプロジェクトが進行中です。とはいえ、この大きな一歩を踏み出したことについて、少しお話ししておく価値はあると思います。これは計算生物学コミュニティが20年、30年も取り組んできたことであり、私たちは今、その課題を突破したと考えています。」