Databricksが次世代Sparkストリーミングエンジン「Project Lightspeed」を発表

Databricksが次世代Sparkストリーミングエンジン「Project Lightspeed」を発表
バイナリコードのレンガの壁のイラスト
画像クレジット: enot-poloskun / Getty Images

Databricksは本日、Data + AI Summitにおいて、同社の主力開発者イベントにふさわしい数々の発表を行いました。その中には、データレイクハウス構築プラットフォームの次期バージョンであるDelta Lake 2.0のリリース、機械学習パイプライン管理プラットフォームの次世代版であるMLflow 2.0(モデル開発のブートストラップ用テンプレートを備えたMLflow Pipelinesを含む)のリリース、そしてDatabricksプラットフォームの中核を成すApache Sparkデータ分析エンジンに関する発表が含まれています。

Databricksは本日、Spark Connectにより、DataFrame APIをベースとしたSpark用の新しいクライアント/サーバーインターフェースを発表しました。Sparkにおいて、DataFrameは列に整理された分散データコレクションであり、Scala、Java、Python、Rなどの言語でAPIを通じて利用できます。DatabricksはSpark Connectにおいてこのコンセプトを採用しつつ、クライアントとサーバーを分離することで、安定性の向上と、組み込み機能としてのリモート接続の実現を実現しています。

しかし、おそらくもっとエキサイティングなのは、DatabricksがProject Lightspeedと呼ぶものです。同社はこれをSparkストリーミングエンジンの次世代と説明しています。Databricksは、ストリーミングデータを必要とするアプリケーションが増えるにつれて、ストリーミングエンジンが提供できる機能に対する要件も変化していると主張しています。

「Spark Structured Streamingは、その使いやすさ、パフォーマンス、大規模なエコシステム、そして開発者コミュニティのおかげで、ストリーミングの黎明期から広く採用されてきました」と、同社は本日の発表で説明しています。「これを念頭に、Databricksはコミュニティと協力し、Project Lightspeedへの参加を促進して、パフォーマンスの向上、コネクタのエコシステムサポート、新しいオペレーターとAPIによるデータ処理機能の強化、そして導入、運用、監視、トラブルシューティングの簡素化を目指します。」

Databricks の広報担当者は、このプロジェクトは同社のストリーミング責任者である Karthik Ramasamy 氏が主導し、より高いスループット、より低いレイテンシー、より低いコストの提供、およびコネクタのエコシステムの拡張と追加のデータ処理機能に重点を置くと語った。

トピック

Apache Spark API クラウドコンピューティングコンピューティング Databricks 開発者エンタープライズフリーソフトウェア Java 機械学習プログラミング言語 Python Scala Spark

フレデリックは2012年から2025年までTechCrunchに在籍していました。また、SiliconFilterを設立し、ReadWriteWeb(現ReadWrite)にも寄稿しています。フレデリックは、エンタープライズ、クラウド、開発者ツール、Google、Microsoft、ガジェット、交通機関など、興味のあるあらゆる分野をカバーしています。

バイオを見る