AWSは、SageMaker HyperPod AIプラットフォームをLLMのトレーニングにより効率的にします。

AWSは、SageMaker HyperPod AIプラットフォームをLLMのトレーニングにより効率的にします。

昨年のAWS re:Inventカンファレンスにおいて、Amazonのクラウドコンピューティング部門は、基盤モデル構築プラットフォームであるSageMaker HyperPodを発表しました。今年のre:Inventで、同社がこのプラットフォームの複数のアップデートを発表するのは当然のことです。特に、HyperPodにおけるモデルのトレーニングと微調整を企業にとってより効率的かつ費用対効果の高いものにすることに重点が置かれています。

HyperPodは現在、Salesforce、Thomson Reuters、BMWといった企業や、Luma、Perplexity、Stability AI、Hugging FaceといったAIスタートアップ企業で利用されています。AWSでHyperPod担当ゼネラルマネージャーを務めるAnkur Mehrotra氏は、今回のアップデートでAWSが対応しているのはまさにこうした顧客のニーズだと語りました。

これらの企業が直面している課題の 1 つは、LLM トレーニング ワークロードを実行するための容量が十分にないことです。

画像クレジット: AWS

「需要が高いため、キャパシティは高額になる場合が多く、必要な時に、必要な量、必要な場所でキャパシティを見つけるのが難しい場合があります」とメロトラ氏は述べた。「すると、特定のブロック単位でキャパシティが見つかることもありますが、これは時間と場所にまたがって分割されている可能性があります。お客様は、ある場所で作業を開始し、その後ワークロードを別の場所に移動させるなど、様々な作業を行う必要があり、さらにそれを繰り返すためにインフラストラクチャの設定とリセットを何度も繰り返す必要があるかもしれません。」

これをより簡単にするために、AWS は「柔軟なトレーニングプラン」と呼ばれる機能を導入します。これにより、HyperPod ユーザーはタイムラインと予算を設定できます。例えば、今後 2 か月以内にモデルのトレーニングを完了したいと考えており、そのためには特定の GPU タイプで 30 日間のトレーニングが必要だと予測している場合、SageMaker HyperPod は最適なキャパシティブロックの組み合わせを見つけ出し、その目標達成のためのプランを作成します。SageMaker はインフラストラクチャのプロビジョニングとジョブの実行(キャパシティが不足している場合は一時停止)を処理します。

画像クレジット: AWS

Mehrotra 氏は、理想的には、これにより、企業がトレーニング ジョブ用にサーバーを過剰にプロビジョニングすることによる過剰な支出を回避できると指摘しました。

しかし、多くの場合、これらの企業はモデルをゼロからトレーニングするのではなく、MetaのLlamaのようなオープンウェイトモデルやモデルアーキテクチャをベースに、独自のデータを用いてモデルを微調整しています。SageMakerチームは、こうした企業向けにHyperPod Recipesをリリースします。これは、LlamaやMistralなどの一般的なアーキテクチャ向けにベンチマークされ最適化されたレシピであり、これらのモデルの使用に関するベストプラクティスを網羅しています。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

Mehrotra 氏は、これらのレシピは、トレーニング ジョブの進行状況が定期的に保存されるように、特定のワークロードに適切なチェックポイント頻度も計算すると強調しました。

画像クレジット: AWS

企業内で生成AIを活用するチームの数が増えると、各チームが独自のキャパシティをプロビジョニングすることになり、その結果、一部のGPUがアイドル状態となり、企業全体のAI予算を圧迫することになります。この問題に対処するため、AWSは現在、企業がこれらのリソースを実質的にプールし、プロジェクトの優先度に基づいてGPUキャパシティを割り当てるための中央コマンドセンターを構築できるようにしています。これにより、システムは必要に応じて(または社内の優先順位に基づいて(必ずしも同じではない))リソースを自動的に割り当てることができます。

これにより実現されるもう 1 つの機能は、企業が顧客にサービスを提供するために日中に割り当てられたリソースのほとんどを推論の実行に使用し、その後、推論の需要が少ない夜間にそれらのリソースの多くをトレーニングに割り当てることができることです。

実は、AWS は最初にこの機能を Amazon 自身向けに構築し、この新しいツールにより同社のクラスターの使用率は 90% を超えました。

組織は真にイノベーションを望み、多くのアイデアを持っています。ジェネレーティブAIは非常に新しい技術であり、多くの新しいアイデアがあります。そのため、リソースと予算の制約に直面することになります。そこで重要なのは、業務をより効率的に行うことです。私たちはお客様のコスト削減を真に支援することができます。そして、これは組織全体で最大40%のコスト削減に貢献すると私たちは考えています。

Amazon re:Invent 2024 カンファレンスのロゴ

2024年12月3日~2024年12月6日

ストーリーラインより: AWS re:Invent 2024: Amazon最大のイベントのライブアップデート

Amazon の re:invent 2024 カンファレンスがラスベガスに戻り、12 月 6 日まで一連の発表と基調講演が行われます。AI は…

フレデリックは2012年から2025年までTechCrunchに在籍していました。また、SiliconFilterを設立し、ReadWriteWeb(現ReadWrite)にも寄稿しています。フレデリックは、エンタープライズ、クラウド、開発者ツール、Google、Microsoft、ガジェット、交通機関など、興味のあるあらゆる分野をカバーしています。

バイオを見る