AmazonのAWSクラウド部門は本日、re:Inventカンファレンスにおいて、大規模言語モデル(LLM)のトレーニングと微調整に特化した新サービス「SageMaker HyperPod」のリリースを発表しました。SageMaker HyperPodは現在、一般提供中です。
Amazonは長年、機械学習モデルの構築、トレーニング、デプロイを行うサービスであるSageMakerを、自社の機械学習戦略の基盤として重視してきました。そして今、生成型AIの登場により、ユーザーがLLMをより簡単にトレーニングおよび微調整できるようにするために、SageMakerを中核製品として活用していることは、もはや驚くべきことではないかもしれません。

「SageMaker HyperPodは、分散トレーニングに最適化された高速インスタンスを備えた分散クラスターを構築する機能を提供します」と、AWSのSageMaker担当ゼネラルマネージャー、Ankur Mehrotra氏は本日の発表に先立つインタビューで語った。「モデルとデータをクラスター全体に効率的に分散するためのツールが提供され、トレーニングプロセスを高速化します。」
また、SageMaker HyperPodではチェックポイントを頻繁に保存できるため、最初からやり直すことなくトレーニングプロセスを一時停止、分析、最適化できる点にも言及しました。このサービスには複数のフェイルセーフ機能も備わっており、何らかの理由でGPUがダウンした場合でも、トレーニングプロセス全体が失敗することはありません。
「例えば、モデルのトレーニングのみに関心のある機械学習チームにとって、これはゼロタッチ体験となり、クラスターはある意味で自己修復型クラスターのようなものになります」とメロトラ氏は説明します。「全体として、これらの機能により、基盤モデルのトレーニングを最大40%高速化できます。これは、コストと市場投入までの時間を考慮すると、大きな差別化要因となります。」

ユーザーは、Amazon独自のカスタムTrainium(およびTrainium 2)チップ、またはH100プロセッサを搭載したものを含むNVIDIAベースのGPUインスタンスでトレーニングを行うことができます。Amazonは、HyperPodによってトレーニングプロセスが最大40%高速化されると約束しています。
同社は既にSageMakerを用いてLLMを構築した実績があります。例えば、Falcon 180Bモデルは、数千基のA100 GPUクラスターを用いてSageMakerで学習されました。Mehrotra氏は、AWSがそこから得た知見と、SageMakerのスケーリングにおける過去の経験を活かしてHyperPodを構築できたと述べています。
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日

Perplexity AIの共同創業者兼CEOであるアラヴィンド・スリニヴァス氏は、同社がプライベートベータ版の段階でこのサービスに早期アクセスできたと語った。同氏によると、当初チームはモデルのトレーニングと微調整にAWSを使用することに懐疑的だったという。
「以前はAWSを使ったことがありませんでした」と彼は言う。「AWSは大規模モデルのトレーニングに適したインフラを備えていないという通説がありました。これは通説で、事実ではありません。当然ながら、デューデリジェンスを行う時間がなかったので、それを信じてしまったのです。」しかし、チームはAWSとつながり、そこでエンジニアからサービスを(無料で)試用してみるよう依頼された。彼はまた、AWSからのサポートを受けるのが簡単で、Perplexityのユースケースに十分なGPUを利用できることも発見したと述べている。チームが既にAWSでの推論に慣れていたことが、明らかに助けになったようだ。
スリニヴァス氏はまた、AWS HyperPodチームがNvidiaのグラフィックカードを接続する相互接続の高速化に注力したことを強調した。「彼らは、異なるノード間で勾配やパラメータを伝達できるようにするプリミティブ(Nvidiaの様々なプリミティブ)を最適化しました」と彼は説明した。
フレデリックは2012年から2025年までTechCrunchに在籍していました。また、SiliconFilterを設立し、ReadWriteWeb(現ReadWrite)にも寄稿しています。フレデリックは、エンタープライズ、クラウド、開発者ツール、Google、Microsoft、ガジェット、交通機関など、興味のあるあらゆる分野をカバーしています。
バイオを見る