AWSが機械学習向けの新しいデータ準備サービス「SageMaker Data Wrangler」を発表

AWSが機械学習向けの新しいデータ準備サービス「SageMaker Data Wrangler」を発表

AWSは本日、データサイエンティストが機械学習の学習用データを容易に準備できる新サービス「Amazon SageMaker Data Wrangler」を発表しました。さらに、SageMaker Studioで利用可能なSageMaker Feature Storeも開始しました。これは、機械学習の特徴量の命名、整理、検索、共有を容易にする新サービスです。

AWS は、プラットフォームの他の部分と統合され、機械学習によるワークフローの作成と自動化のための CI/CD サービスと、トレーニング データや構成などのモデル コンポーネントの監査証跡を提供する新しいサービスである Sagemaker Pipelines も開始します。

AWS CEOのアンディ・ジャシー氏が同社主催のre:Inventカンファレンスの基調講演で指摘したように、機械学習分野においてデータ準備は依然として大きな課題です。ユーザーはまず、データストアからデータを取得するためのクエリとコードを記述し、その後、そのコードを変換し、必要に応じて特徴量を組み合わせるためのクエリを記述する必要があります。こうした作業はすべて、モデルの構築ではなく、モデル構築のためのインフラストラクチャに重点が置かれているのです。

Data Wranglerには、300種類以上のデータ変換機能があらかじめ組み込まれており、列の型を変換したり、欠損データを平均値や中央値で補完したりすることができます。また、潜在的なエラーを特定するための視覚化ツールや、モデルをデプロイする前にデータに不整合がないか確認して診断するためのツールも組み込まれています。

これらのワークフローはすべてノートブックまたはスクリプトとして保存できるため、チームはそれを複製し、SageMaker Pipelines で使用して残りのワークフローを自動化することもできます。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

注目すべきは、同じ問題に取り組んでいるスタートアップ企業が数多く存在することです。機械学習データのラングリングは、この分野で最もよくある問題の一つです。しかし、ほとんどの企業は依然として独自のツールを構築しており、そのため、この分野はマネージドサービスの利用が期待できます。

トピック

Amazon Amazon SageMaker Amazon Web Services Andy Jassy AWS AWS re:Invent 2020 CEO クラウドコンピューティングクラウドインフラストラクチャコンピューティングディープラーニング機械学習 SageMaker Studio TC ワークフロー

フレデリックは2012年から2025年までTechCrunchに在籍していました。また、SiliconFilterを設立し、ReadWriteWeb(現ReadWrite)にも寄稿しています。フレデリックは、エンタープライズ、クラウド、開発者ツール、Google、Microsoft、ガジェット、交通機関など、興味のあるあらゆる分野をカバーしています。

バイオを見る