データレイクハウスOnehouseがGenAI革命の活用で3500万ドルを獲得

データレイクハウスOnehouseがGenAI革命の活用で3500万ドルを獲得

最近では、生成AIに関する記事を読まずに1時間も過ごすことはまずありません。第四次産業革命の「蒸気機関」とも呼ばれるこの現象はまだ初期段階にありますが、「GenAI」が金融、医療、法律など、あらゆる業界に変革をもたらしつつあることはほぼ間違いありません。

ユーザー向けのクールなアプリケーションは注目を集めるかもしれないが、現在最も恩恵を受けているのは、この革命を推進する企業だ。今月、半導体メーカーのNVIDIAは、AIコンピューティング能力への需要によって実質的に牽引され、一時的に世界最大の企業価値を持つ3.3兆ドルの巨大企業となった。

しかし、GPU (グラフィックス プロセッシング ユニット) に加えて、企業はデータのフローを管理し、保存、処理、トレーニング、分析を行い、最終的には AI の潜在能力を最大限に引き出すためのインフラストラクチャも必要としています。

この流れに乗ろうとしている企業の一つが、カリフォルニア州に拠点を置く創業3年のスタートアップ企業、Onehouseです。Vinoth Chandar氏は、Uberでデータアーキテクトを務めていた頃、オープンソースのApache Hudiプロジェクトを立ち上げました。Hudiはデータウェアハウスの利点をデータレイクに持ち込み、「データレイクハウス」と呼ばれる環境を構築することで、構造化データ、非構造化データ、半構造化データなど、あらゆる大規模データセットに対するインデックス作成やリアルタイムクエリの実行といったアクションをサポートします。

例えば、注文、フィードバック、関連するデジタルインタラクションなど、顧客データを継続的に収集するeコマース企業では、すべてのデータを取り込み、常に最新の状態に保つシステムが必要です。これは、ユーザーのアクティビティに基づいた商品のレコメンデーションに役立つ可能性があります。Hudiは、様々なソースから最小限のレイテンシでデータを取り込むことができ、削除、更新、挿入(「upsert」)をサポートしているため、このようなリアルタイムデータのユースケースには不可欠です。

Onehouseは、企業によるHudiの導入を支援するフルマネージドのデータレイクハウスを構築しています。チャンダー氏の言葉を借りれば、Onehouseは「データサイエンス、AI、機械学習エコシステムのほぼすべての主要ツールで利用可能なオープンデータ形式へのデータ取り込みと標準化を加速させる」ものです。

「Onehouseは低レベルのデータインフラ構築を抽象化し、AI企業が自社のモデルに集中できるように支援します」とチャンダール氏はTechCrunchに語った。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

本日、Onehouse は、Hudi のパフォーマンスを向上させ、クラウド ストレージと処理コストを削減する 2 つの新製品を市場に投入し、シリーズ B の資金調達ラウンドで 3,500 万ドルを調達したことを発表しました。

(データ)レイクハウスにて

ロンドンの看板に載ったワンハウスの広告
ロンドンの看板に掲げられたワンハウスの広告。画像提供:ワンハウス

チャンダール氏は2016年にUberの社内プロジェクトとしてHudiを開発し、この配車サービス企業が2019年にこのプロジェクトをApache Foundationに寄贈して以来、HudiはAmazon、ディズニー、ウォルマートなどの企業に採用されている。

チャンダール氏は2019年にUberを退社し、Confluentで短期間勤務した後、Onehouseを設立しました。このスタートアップは2022年に800万ドルのシードラウンドでステルス状態から脱し、その後まもなく2500万ドルのシリーズAラウンドで資金調達を行いました。両ラウンドとも、Greylock PartnersとAdditionが共同でリードしました。

これらのベンチャーキャピタル企業はシリーズBの続編でも再び協力したが、今回はデビッド・サックス氏のCraft Venturesがラウンドを主導している。

「データレイクハウスは、リアルタイム分析、予測ML、GenAIなどの新しいサービスを強化するためにデータを一元化したい組織にとって、急速に標準アーキテクチャになりつつあります」とクラフトベンチャーズのパートナーであるマイケル・ロビンソン氏は声明で述べた。

データウェアハウスとデータレイクは、データをプールするための中央リポジトリとして機能するという点で似ています。しかし、その役割は異なります。データウェアハウスは、履歴や構造化されたデータの処理とクエリに最適です。一方、データレイクは、複数の種類のデータと高性能なクエリをサポートし、膨大な量の生データを元の形式で保存するための、より柔軟な代替手段として登場しました。

これにより、データ レイクは、事前に変換された生データを保存する方が安価であり、同時に、データを元の形式で保存できるため、より複雑なクエリをサポートできるため、AI および機械学習のワークロードに最適です。

しかし、そのトレードオフとして、データ管理の複雑さが新たな段階に突入し、データの種類やフォーマットが多岐にわたるため、データ品質が低下するリスクがあります。Hudiは、データウェアハウスの主要機能(データの整合性と信頼性を支えるACIDトランザクションなど)をデータレイクに導入することで、この問題の解決を目指しています。また、より多様なデータセットのメタデータ管理も改善します。

Onehouseでのデータパイプラインの構成
Onehouseでのデータパイプラインの構成。画像クレジット: Onehouse

Hudiはオープンソースプロジェクトであるため、あらゆる企業で導入可能です。Onehouseのウェブサイトに掲載されているロゴをざっと見てみると、AWS、Google、Tencent、Disney、Walmart、ByteDance、Uber、Huaweiなど、目覚ましい企業が数多く利用していることが分かります。しかし、こうした大手企業がHudiを社内で活用しているという事実は、オンプレミスのデータレイクハウス構築の一環としてHudiを構築するために、どれほどの労力とリソースが必要だったかを物語っています。

「Hudi はデータの取り込み、管理、変換のための豊富な機能を提供していますが、企業が本番環境品質のデータ レイクハウスという目標を達成するには、まだ 6 つほどのオープン ソース ツールを統合する必要があります」と Chandar 氏は述べています。

そのため、Onehouse では、ほんのわずかな時間でデータを取り込み、変換し、最適化する、完全に管理されたクラウドネイティブ プラットフォームを提供しています。

「ユーザーは、すべての主要なクラウドネイティブサービス、ウェアハウス、データレイクエンジンとの幅広い相互運用性を備えたオープンデータレイクハウスを1時間以内に稼働させることができます」とチャンダールは述べています。

同社は、インドのユニコーン企業アプナなど、ケーススタディに挙げられている数社を除き、商業顧客の名前を公表することを控えている。

「私たちは若い会社なので、現時点ではワンハウスの商業顧客リスト全体を公開していません」とチャンダール氏は語った。

Onehouseは新たに3,500万ドルを調達し、Onehouse LakeViewという無料ツールを導入してプラットフォームを拡張しています。このツールは、レイクハウス機能の可観測性を提供し、テーブル統計、傾向、ファイルサイズ、タイムライン履歴などの洞察を提供します。これは、コアとなるHudiプロジェクトが提供する既存の可観測性メトリクスを基盤としており、ワークロードに関する詳細なコンテキストを提供します。

「LakeViewがなければ、ユーザーはパフォーマンスの問題やパイプライン構成の非効率性の根本原因を突き止めるために、メトリクスの解釈に多くの時間を費やし、スタック全体を深く理解する必要があります」とチャンダール氏は述べた。「LakeViewはこれを自動化し、良い傾向や悪い傾向についてメールアラートを送信し、クエリパフォーマンスを向上させるためのデータ管理の必要性を知らせてくれます。」

さらに、Onehouse は、既存のテーブルを最適化してデータの取り込みと変換を迅速化するマネージド クラウド サービスである Table Optimizer という新製品も発表します。

「オープンで相互運用可能」

この分野には無数の大手企業が参入しており、無視することはできません。DatabricksやSnowflakeといった企業は、レイクハウスパラダイムの採用をますます進めています。今月初め、Databricksは共通のレイクハウス標準の策定を目指し、Tabularという企業を10億ドルで買収したと報じられました。

Onehouseは確かに注目の分野に参入したが、ベンダーロックインの回避を容易にする「オープンで相互運用可能な」システムへの注力によって、時代の試練に耐えられることを期待している。同社は本質的に、Databricks、Snowflake、Cloudera、AWSネイティブサービスなど、ほぼどこからでも単一のデータコピーに普遍的にアクセスできるようにすることを約束しており、それぞれに個別のデータサイロを構築する必要はない。

GPU分野におけるNVIDIAと同様に、データ管理分野におけるあらゆる企業を待ち受けるチャンスを無視することはできません。データはAI開発の礎であり、質の高いデータが不足していることが多くのAIプロジェクトが失敗する主な理由となっています。しかし、たとえ大量のデータがあったとしても、企業はそれを取り込み、変換し、標準化して活用するためのインフラを必要とします。これは、Onehouseのような企業にとって良い兆候と言えるでしょう。

「データ管理と処理の観点から言えば、堅牢なデータインフラストラクチャ基盤によって提供される高品質なデータは、これらのAIプロジェクトを実際の運用ユースケースに導入する上で重要な役割を果たすと考えています。つまり、ガベージイン・ガベージアウト(不要なデータ入力と不要なデータ出力)の問題を回避するということです」とチャンダール氏は述べています。「データレイクハウスのユーザーの間では、エンタープライズ規模のデータに基づいてこれらの新しいAIアプリケーションを構築するためのデータ処理とクエリの拡張に苦労しており、こうした需要が高まり始めています。」