DeepMindは昨年末、同社のAIモデルAlphaFold2がタンパク質の構造(一般的かつ非常に難しい問題)を非常に正確に予測し、生物学界に衝撃を与えました。多くの人が数十年来の問題を「解決」したと宣言しました。そして今、研究者たちは、DeepMindが世界を飛び越えたのと同じように、RoseTTAFoldでDeepMindを飛び越えたと主張しています。RoseTTAFoldは、DeepMindの数分の1の計算コストでほぼ同じことを実現するシステムです。(ちなみに、無料で利用できます。)
AlphaFold2は、昨年11月にCASP14で競合を圧倒して以来、業界で話題を呼んでいます。CASP14は、タンパク質を構成するアミノ酸配列からその物理的構造を予測するアルゴリズムを競う仮想コンテストです。DeepMindのモデルは他のモデルをはるかに凌駕し、非常に高い精度と信頼性を示したため、この分野の多くの研究者が(半ば冗談めかして)新しい分野への転向を口にしています。
しかし、DeepMindのシステム計画については、誰も納得していないように思えた点が一つあった。それは、システム計画が網羅的かつオープンに説明されておらず、同社(Alphabet/Google傘下)が、その秘密をほぼ独り占めするつもりではないかと懸念する声もあった。これはDeepMindの特権ではあるが、科学界における相互扶助の精神に反する面もある。
追記:DeepMindは本日、Nature誌にさらに詳細な手法を発表しました。これはちょっとした驚きです。コードはGitHubで公開されています。これにより前述の懸念は大幅に軽減されますが、以下に説明する進歩は依然として非常に重要な意味を持っています。記事の末尾に、DeepMindチームからのコメントも追加しました。
アルファベットのDeepMindがAIベースのタンパク質構造予測で歴史的な新マイルストーンを達成
この懸念は、ワシントン大学のデイビッド・ベイカー氏とミンギョン・ベク氏が率いる研究者らが、科学誌「サイエンス」最新号に発表した研究によって、少なくとも部分的には払拭されたようだ。ベイカー氏は、ご存知の通り、人工タンパク質を用いたCOVID-19対策で、最近、ブレークスルー賞を受賞した。
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日
チームの新たなモデル「RoseTTAFold」は、電子メールでの質問に答える中で、ベイカー氏が率直に認めたように、AlphaFold2 で使用された方法からヒントを得た手法を使用して、同様の精度レベルで予測を行っています。
「AlphaFold2グループはCASP14会議でいくつかの新しいハイレベルなコンセプトを発表しました。これらのアイデアを基に、グループの同僚たちと何度もブレインストーミングを重ねることで、ミンギョンは非常に短い時間で驚くべき進歩を遂げることができました」と彼は語った。(「彼女は素晴らしい!」と彼は付け加えた。)

ベイカー氏のグループはCASP14でほぼ2位という成績を収めました。これは決して簡単なことではありませんが、DeepMindの手法の説明を聞いたことで、彼らは衝突する道を歩み始めたと言えるでしょう。彼らは、アミノ酸配列(1次元)、残基間の距離(2次元)、そして空間座標(3次元)を同時に考慮する「3トラック」ニューラルネットワークを開発しました。実装は非常に複雑で、この記事の範囲をはるかに超えていますが、その結果、ほぼ同等の精度レベルを達成するモデルが生まれました。繰り返しますが、これはわずか1年前には全く前例のないレベルでした。
さらに、RoseTTAFoldはこのレベルの精度をはるかに高速に、つまりより少ない計算能力で達成します。論文では次のように述べられています。
DeepMind は、個々の予測を行うために数日間にわたって複数の GPU を使用したと報告しましたが、私たちの予測は、サーバーに使用されるのと同じ方法でネットワークを 1 回通過するだけで行われます。RoseTTAFold のエンドツーエンド バージョンでは、400 残基未満のタンパク質のバックボーン座標を生成するために、RTX2080 GPU で約 10 分かかります。
聞こえますか?何千人もの微生物学者が安堵のため息をつき、スーパーコンピュータの使用時間を求めるメールの下書きを破棄する音です。昨今、2080を手に入れるのは容易ではないかもしれませんが、重要なのは、ハイエンドのデスクトップGPUなら、このタスクを数分で実行できるということです。ハイエンドのクラスターを何日も稼働させる必要はありません。
要件が控えめであるため、RoseTTAFold はパブリック ホスティングや配布にも適しています。これは、AlphaFold2 では決して考えられなかったことです。
「誰でもタンパク質配列を送信して構造予測を得られる公開サーバーを運用しています」とベイカー氏は述べた。「数週間前にサーバーを立ち上げて以来、4,500件以上の送信がありました。ソースコードも無料で公開しています。」
これは非常にニッチな問題のように思えるかもしれませんし、実際その通りです。しかし、タンパク質のフォールディングは歴史的に生物学における最も難しい問題の一つであり、膨大な量の高性能コンピューティングが費やされてきました。Folding@Homeという人気の分散コンピューティングアプリを覚えている方もいるかもしれません。このアプリでは、人々が自分の計算サイクルをタンパク質構造の予測に寄付することができます。かつては数千台のコンピューターで数日から数週間かけて解を総当たり方式で求め、適合性をチェックするといった方法で解いていたような問題が、今ではデスクトップ1台で数分で解けるようになりました。
タンパク質の物理的構造は生物学において極めて重要です。なぜなら、私たちの体内でほとんどの機能を担うのはタンパク質であり、治療上の理由からタンパク質を改変、抑制、増強などする必要があるからです。しかし、まずはタンパク質を理解する必要があり、11月までは計算によってその理解を確実に得ることができませんでした。CASP14ではそれが可能であることが証明され、現在では広く利用可能になっています。
タンパク質の折り畳みの問題に対する「解決策」とは決して言えませんが、そう考える声は上がっています。中性条件下で静止しているほとんどのタンパク質の構造は予測可能であり、これは複数の領域に大きな影響を与えます。しかし、「中性条件下で静止している」タンパク質は稀です。タンパク質は他の分子を掴んだり離したり、ゲートや他のタンパク質をブロックしたりすり抜けたり、そして一般的にあらゆる行動をとるために、ねじれたりねじれたりします。こうした相互作用ははるかに多く、複雑で、予測が困難であり、AlphaFold2もRoseTTAFoldもそれを予測することはできません。
「これから先も多くの刺激的な章が待っています…物語はまだ始まったばかりです」とベイカー氏は語った。
DeepMind の論文に関して、ベイカー氏は大学の仲間意識から次のようなコメントを述べた。
読みましたが、これは素晴らしい仕事を説明した美しい論文だと思います。
DeepMind の論文は実際には私たちの論文を非常に補完するものであり、私たちの研究は彼らの進歩に基づいているため、私たちの論文の後に発表されないのは適切だと思います。
読者の皆様には、どちらの論文も楽しんで読んでいただけると思います。全く重複している点は全くありません。私たちの論文でも指摘しているように、彼らの手法は私たちのものよりも精度が高く、残りの違いは彼らのアプローチのどのような特徴によるものなのか、今後非常に興味深い点が出てくるでしょう。私たちは既にRoseTTAFoldをタンパク質設計と、より体系的なタンパク質-タンパク質複合体の構造予測に使用しており、DeepMindの論文のアイデアを取り入れることで、従来の単鎖モデリングに加え、これらの手法を急速に改善できることに期待しています。
DeepMindからのもう一つの遅れた追加情報ですが、Baker Labの論文を読んだ後、精度の差は些細なものではなく、パフォーマンスの差もいくらか縮まっていると指摘しました。この点について少し説明を求めましたが、ご承知の通り、これは急速に進歩する研究分野であり、一流の研究室でさえ互いの動向を把握できないほどです。
科学的な側面や潜在的な影響について知りたいなら、AlphaFold2のCASP14パフォーマンスを受けて書かれた、手法と今後の可能性のあるステップに関する、より詳細かつ技術的な解説を読むのが最善の策です。そこに引用されている専門家たちは、より深い洞察を持っているはずです。
COVID-19と戦う分子を設計した科学者に300万ドルのブレークスルー賞が授与される