2100万ドルの資金提供を受けたコードオーシャンは、研究者が大量のデータを必要とする科学を再現するのを支援することを目指している。

2100万ドルの資金提供を受けたコードオーシャンは、研究者が大量のデータを必要とする科学を再現するのを支援することを目指している。

科学のあらゆる分野がビッグデータセットと分析への依存度を高めており、フォーマットやプラットフォームの混乱が深刻化しています。これは単に不便なだけでなく、査読や研究の再現プロセスを妨げる可能性があります。Code Oceanは、あらゆるデータセットと手法に対応する柔軟で共有可能なフォーマットとプラットフォームを構築することで、科学者の共同作業を容易にすることを目指しており、その構築のために総額2,100万ドルを調達しました。

確かに、これには「選択肢が多すぎる? これを試してみて!」という雰囲気があります(そして、ここに必要な関連XKCDがあります)。しかし、Code OceanはJupyter、GitLab、Dockerといった成功したツールの競合製品を作るわけではありません。むしろ、データと分析に必要なすべてのコンポーネントを、ネイティブプラットフォームに関係なく、簡単に共有できる形式でまとめることができる小規模なコンテナプラットフォームです。

問題は、隣の実験室にいる研究者であっても、遠く離れた大学にいる研究者であっても、自分の研究成果を他の研究者と共有する必要がある時に発生します。再現性を確保するためには、データ分析は他の科学技術と同様に、全く同じ方法で行われることが重要です。しかし、同僚が同じ構造、フォーマット、表記法、ラベルなどを使用するという保証はありません。

作業内容を共有できないわけではありませんが、レプリケーターやイテレーターがすべてのメソッドが同じであること、同じツールの同じバージョンが同じ順序で同じ設定で使用されていることなど、何度も確認する必要があるため、多くの追加手順が必要になります。わずかな不一致が、後々大きな影響を及ぼす可能性があります。

実はこの問題は、多くのクラウドサービスが立ち上がる仕組みと似たようなものなのです。ソフトウェアのデプロイメントは科学実験と同じくらい扱いが難しい場合があり、その解決策の一つがコンテナです。コンテナは小さな仮想マシンのように、コンピューティングタスクを実行するために必要なものすべてを、様々な環境と互換性のあるポータブルな形式で提供します。このアイデアは研究の世界にも自然に応用できます。研究の世界では、データ、使用されるソフトウェア、そして特定の結果を得るために使用された特定の技術やプロセスをすべて、一つの整理されたパッケージにまとめることができます。少なくとも、Code Oceanがそのプラットフォームと「Compute Capsules」に込めた売り文句はまさにこれです。

「コンピューティング カプセル」にコード、環境、データがどのように含まれるかを示す図。
画像クレジット: Code Ocean

例えば、あなたが微生物学者で、有望な化合物が特定の筋細胞に及ぼす効果を調べているとします。Ubuntuマシン上でR言語とRStudioを使ってコードを書き、in vitro観察中に収集したデータについて報告します。当然、論文を発表する際にはこれらすべてを宣言するでしょうが、RStudioが動作するUbuntuラップトップを持っている人がいる保証はありません。そのため、たとえすべてのコードを提供したとしても、無駄になってしまう可能性があります。

しかし、このようにCode Oceanに公開すれば、関連するコードがすべて利用可能になり、クリック一つで検査・実行し、変更を加えることなくそのまま利用できるようになります。また、同僚が特定の部分について疑問に思っている場合は、必要に応じて変更することも可能です。単一のリンクとWebアプリで動作し、クロスプラットフォームで動作し、ドキュメントや動画のようにWebページに埋め込むこともできます。(以下で実際に試してみますが、バックエンドが少し扱いに​​くいです。カプセル自体はこちらにあります。)

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

しかし、それ以上に、Compute Capsuleは新たなデータと改良を加えることで、他のユーザーによって再利用される可能性があります。例えば、あなたがオンラインに公開した技術は、適切な形式のデータを入力するだけで動作する汎用RNA配列解析ツールかもしれません。これは、一部のプラットフォームを利用するために、他のユーザーがゼロからコードを作成しなければならなかったものです。

そうですね、彼らはあなたのカプセルを複製し、自分のデータで実行して、あなたの結果を検証するだけでなく、独自の結果も得ることができます。これはCode Oceanのウェブサイトから、あるいは互換性のある環境があれば、カプセル全体をzipファイルでダウンロードして自分のコンピューターで実行することでも可能です。さらにいくつかのカプセルの例は、こちらでご覧いただけます。

Code Ocean ワークベンチ環境のスクリーンショット。
画像クレジット: Code Ocean

このような研究手法の相互交流は科学の歴史と同じくらい古いものですが、現代のデータ重視の実験は、コードが技術的に利用可能であっても、容易に共有・検証できないため、サイロ化してしまうことがよくあります。つまり、他の研究者は別の研究に移り、独自の研究を構築し、サイロ化をさらに強化してしまうのです。

現在、Code Oceanには約2,000個の公開コンピューティングカプセルがあり、そのほとんどは論文発表に関連しています。また、そのほとんどは、他の研究者によって複製や新しい試みのために利用されており、中には極めて特殊なオープンソースコードライブラリなど、数千人規模で利用されているものもあります。

当然のことながら、機密データや医療上機密性の高いデータを扱う際にはセキュリティ上の懸念が生じますが、エンタープライズ製品ではシステム全体をプライベートクラウドプラットフォーム上で実行できます。これにより、より社内向けのツールとして活用され、大規模な研究機関においてはそれ自体が非常に有用となる可能性があります。

データは世界で最も価値のある(そして脆弱な)リソースである

Code Ocean は、コードベース、プラットフォーム、コンピューティング サービスなどの面で可能な限り包括的になることにより、最先端のより協力的な環境を実現できることを期待しています。

同社の野心は他の企業にも共有されていることは明らかで、同社はこれまでに2,100万ドルを調達しており、そのうち600万ドルはこれまで公表されていない投資によるもので、1,500万ドルは本日発表されたAラウンドで調達されたものです。AラウンドはBattery Venturesが主導し、Digitalis Ventures、EBSCO、Vaal Partners、その他多数の企業が参加しました。

この資金により、同社はプラットフォームのさらなる開発、拡張、そしてプロモーションが可能になります。運が良ければ、すぐにこうした洗練されたSaaSが息づく稀有な領域、つまり、必要不可欠で、深く統合され、収益性の高い領域に参入できるでしょう。