これはアンバンドルデータベース時代の始まりである

Cemubo vgnpne 0

Watch

クラウドのおかげで、生成され保存されるデータの量は規模とボリュームの両面で爆発的に増加しました。

企業のあらゆる側面にデータが組み込まれているため、新しい業務はそのデータに基づいて構築され、すべての企業がデータ企業になるよう推進されています。

この変化を牽引した最も顕著な、そしておそらくは目に見えない変化の一つが、クラウドデータベースの登場です。Amazon S3、Google BigQuery、Snowflake、Databricksといったサービスは、膨大なデータ量のコンピューティングを解決し、あらゆる利用可能なソースからのデータ保存を容易にしました。

企業は、顧客エクスペリエンスの向上と新たな市場機能の提供を期待して、できる限りすべてを保存したいと考えています。

データベース企業にとって良い時期だ

CB Insightsによると、データベース企業は過去10年間で87億ドル以上を調達しており、そのうちのほぼ半分にあたる41億ドルは過去24か月間で調達されたという。

スノーフレークとデータブリックスの時価総額が急騰していることを考えると、これは驚くべきことではありません。市場規模は過去4年間で倍増し、900億ドル近くに達しており、今後4年間でさらに倍増すると予想されています。大きなチャンスが待ち受けていると言っても過言ではありません。

2021 年のデータベースファイナンスの確かなリストについては、こちらをご覧ください。

テッククランチイベント

サンフランシスコ | 2025年10月27日～29日

データベースの成長が企業の支出を押し上げている — データベースの拡大が企業における支出を押し上げている。**画像クレジット：** Venrock

20年前は選択肢は1つしかありませんでした。リレーショナルデータベースです。

今日では、クラウド、マイクロサービス、分散アプリケーション、グローバル規模、リアルタイムデータ、ディープラーニングのおかげで、新たなパフォーマンス要件を解決するための新しいデータベースアーキテクチャが登場しています。

現在、高速読み取りと高速書き込みのための様々なシステムをご用意しています。また、アドホック分析、非構造化データ、半構造化データ、トランザクションデータ、リレーショナルデータ、グラフデータ、時系列データ、さらにはキャッシュ、検索、インデックス、イベントなどに基づくデータに特化したシステムもご用意しています。

各システムには、高可用性、水平スケール、分散一貫性、フェイルオーバー保護、パーティション耐性、サーバーレスで完全に管理されていることなど、さまざまなパフォーマンスニーズがあります。

その結果、企業は平均して7つ以上の異なるデータベースにデータを保存しています。例えば、データウェアハウスとしてSnowflake、アドホック分析にはClickhouse、時系列データにはTimescale、検索データにはElastic、ログにはS3、トランザクションにはPostgres、キャッシュやアプリケーションデータにはRedis、複雑なワークロードにはCassandra、リレーションシップデータや動的スキーマにはDgraph*といったデータベースを使用しているかもしれません。

これらはすべて、単一のクラウドに配置され、最新のデータスタックをゼロから構築していることを前提としています。

これらのサービスやプラットフォームが提供するパフォーマンスと保証のレベルは、5～10年前と比べて大きく変化しています。同時に、データベース層の急増と断片化により、新たな課題がますます増えています。

例えば、異なるスキーマやシステム間の同期、複数のデータベースにまたがるワークロードをブリッジするための新しいETLジョブの作成、絶え間ないクロストークや接続の問題、多数の異なるシステムにまたがるアクティブ/アクティブクラスタリングの管理にかかるオーバーヘッド、新しいクラスタやシステムがオンラインになった際のデータ転送などです。これらにはそれぞれ、スケーリング、ブランチング、プロパゲーション、シャーディング、そしてリソース要件が異なります。

さらに、エンタープライズ規模の次の課題を解決することを目的とした新しいデータベースが毎月登場しています。

新時代のデータベース

そこで疑問になるのが、データベースの将来は今後も現在と同じように定義され続けるのか、ということです。

私はそうすべきではないと主張します。むしろ、次世代のデータベースが前世代とは全く異なるものになることを願っています。

以下の機能が必要です。

主にコンピューティング、クエリ、および/またはコモディティストレージレイヤーの上に配置できるインフラストラクチャエンジンです。
基礎となるデータの移行や再構築は必要ありません。
クエリの書き換えや解析は必要ありません。
列形式、非リレーショナル、グラフなど、複数のストレージエンジン上で動作します。
構成、可用性、スケールの複雑さをコードに移行します。
基盤となるデータインフラストラクチャに関係なく、アプリケーションが単一のインターフェイスを呼び出すことを可能にします。
サーバーレスまたはマネージドサービスとしてすぐに使用できます。
シングルプレイヤーモードとマルチプレイヤーモードの両方で、開発者中心のエクスペリエンスを実現するように構築されます。
既存 (ブラウンフィールド) プロジェクトと新規 (グリーンフィールド) プロジェクトの両方に、ゼロデイ価値を提供します。

この未来を推進する多くの世俗的なトレンドがある

誰も新しいデータベースに移行したくない

組織に導入される新しいデータベース1台あたりのコストは、既存のデータベース数のN ²倍に相当します。新しいアーキテクチャ、スキーマ、または構成に移行し、リバランス、クエリプランニング、スケーリング、リソース要件に合わせて再度最適化する必要があるため、コストと支出を差し引いた後の価値はほぼゼロになります。

驚かれるかもしれませんが、現在でも重要なアプリケーションを動かしている Oracle インスタンスには数十億ドルものコストがかかっており、それがなくなることはないと思われます。

キラー機能の大部分はストレージ層には存在しない

コンピューティングとストレージを分離することで、新しいレベルのパフォーマンスが実現可能となり、非常に安価な生のストレージと、細かく調整され、弾力的にスケーリングされたコンピューティング、クエリ、インフラストラクチャレイヤーが実現しました。

ストレージ層はデータインフラストラクチャの中心に位置付けられ、ルーティング、解析、可用性、スケール、変換などの問題を解決するために複数のツールによってさまざまな方法で活用されます。

データベースは徐々に高度に専門化されたサービスへと分離しつつある

過去の過度に複雑でロックインされたアプローチからの脱却が進んでいます。高速な読み書き、高い可用性、一貫性を備え、エッジでのキャッシュ処理と必要に応じて水平方向に拡張しながら、トランザクションおよび分析のユースケースを完全に解決できる単一のデータベースは存在しません。

しかし、データベースをストレージエンジンの上にある一連のレイヤーに分離すると、新しいレベルのパフォーマンスと保証を提供する一連の新しいサービスを導入できます。

たとえば、ユーザー、クエリ、およびデータの認識に基づいてキャッシュを最適化できる動的キャッシュサービス、データ分散クエリの需要とデータ変更率に基づいてシャーディングを管理する、接続プーリングとリソース管理によって高可用性と水平スケーリングを可能にするプロキシレイヤーを導入する、スキーマ間の非同期および同期の伝播を解決するためのデータ管理フレームワークを追加する、GraphQL とリレーショナルデータベース間の変換レイヤーを導入するなどのことが可能です。

規模とシンプルさはこれまでトレードオフだった

Postgres、MySQL、Cassandraは非常に強力ですが、正しく使いこなすのは難しいです。FirebaseとHerokuは非常に使いやすいですが、スケールしません。

これらのデータベース技術は、膨大なインストールベースと堅牢なエンジンを誇り、FacebookやNetflixレベルの規模で長年の実績を積み重ねてきました。しかし、ニーズに合わせてそれらを調整するには、Facebook、Netflix、Uber、Airbnbなどのチームがそうであるように、博士号とデータベース専門家のチームが必要になることがよくあります。

残りの私たちは、一貫性と分離、シャーディング、ロック、クロックスキュー、クエリプランニング、セキュリティ、ネットワークなどに苦労しています。Supabase や Hydras などの企業は、標準の Postgres インストールを活用しながら、その上に強力なコンピューティングおよび管理レイヤーを構築することで、Postgres のパワーを Firebase や Heroku のシンプルさで実現しています。

データベースのインデックスモデルは30年以上変わっていない

現在、私たちはBツリーやハッシュマップといった汎用的な万能インデックスに依存しており、データをブラックボックス的な視点で捉えています。学習済みインデックスで見てきたように、累積分布関数（CDF）を活用するなど、よりデータに着目することで、インデックスの小型化、検索の高速化、並列処理の向上、CPU使用率の低減を実現できます。

データの形状と変化の両方に適応した次世代インデックスの実証は、まだ始まったばかりです。

データベースのパフォーマンスを向上させるために機械学習はほとんど利用されていない

代わりに、今日ではクエリパフォーマンス、コストモデリング、ワークロード予測を最適化するために、静的なルールセットと設定を定義しています。これらの組み合わせ型かつ多次元的な問題セットは、人間が設定するには複雑すぎるため、まさに機械学習の理想的な問題です。

ディスク、RAM、CPUなどのリソースは適切に特性評価され、クエリ履歴も適切に把握され、データ配分も定義可能です。クエリパフォーマンス、コスト、リソース使用率が10倍向上し、ネストループ結合のような問題は二度と発生しなくなります。

データプラットフォームとエンジニアリングチームはDBA、DevOps、SREになりたくない

彼らは、システムやサービスがすぐに使えること、リソース、コネクションプーリング、キャッシュロジック、バキューム、クエリプランニング、インデックス更新などについて考える必要がないことを望んでいます。今日のチームは、簡単に導入でき、すぐに使える堅牢なエンドポイントを求めています。

運用上のリアルタイムデータの必要性がハイブリッドシステムの必要性を促している

トランザクションシステムは、高い精度、速度、信頼性で、新しいレコードをテーブルに迅速に書き込むことができます。分析システムは、複数のテーブルとデータを迅速に検索して答えを見つけることができます。

ストリーミングデータと分析システムにおけるより高速な応答性へのニーズが高まる中、特に運用性の高いユースケースにおいて、HTAP（ハイブリッドトランザクション／分析処理）システムという概念が浮上しています。これは、非常に高いレベルの新規書き込み／レコード処理と、ビジネス指標に基づくテレメトリや分析の応答性向上を意味します。これにより、トランザクションデータと分析データ、そしてシステムが互いに近接しつつも、同時に存在しなくなるという、新たなアーキテクチャパラダイムが生まれます。

クラウドデータベース企業という新たなカテゴリーが出現し、従来のモノリスデータベーススタックを、ストレージ、コンピューティング、最適化、クエリプランニング、インデックス作成、関数といったコアとなる階層化されたサービスへと効果的に分解しています。ReadySet、Hasura、Xata、OtterTune、Apollo、PolyScaleといった企業は、この動きの好例であり、急速に新たな開発者標準となりつつあります。

これらの新しいアンバンドルデータベースは、キャッシュ、インデックス、スケール、可用性といった難題の解決に重点を置き、パフォーマンスと保証のトレードオフを排除し始めています。常時稼働し、大規模な処理に対応し、データアウェアな高速データベースは、従来の運用システムと分析システムの境界線を曖昧にしつつあります。未来は明るいと言えるでしょう。

Posted by Cemubo

これはアンバンドルデータベース時代の始まりである

データベース企業にとって良い時期だ

20年前は選択肢は1つしかありませんでした。リレーショナルデータベースです。

新時代のデータベース

この未来を推進する多くの世俗的なトレンドがある

誰も新しいデータベースに移行したくない

キラー機能の大部分はストレージ層には存在し ない

データベースは徐々に高度に専門化されたサービスへと分離しつつある

規模とシンプルさはこれまでトレードオフだった

データベースのインデックスモデルは30年以上変わっていない

データベースのパフォーマンスを向上させるために機械学習はほとんど利用されていない

データプラットフォームとエンジニアリングチームはDBA、DevOps、SREになりたくない

運用上のリアルタイムデータの必要性がハイブリッドシステムの必要性を促している

キラー機能の大部分はストレージ層には存在しない