
AWSは本日、最新のGPU搭載インスタンスの提供開始を発表しました。P4dと呼ばれるこれらの新インスタンスは、AWSが最初のCluster GPUインスタンス群の提供開始から10年を経て提供開始となります。この新世代インスタンスは、Intel Cascade LakeプロセッサとNVIDIA A100 Tensor Core GPUを8基搭載しています。AWSによると、これらのインスタンスは前世代と比較して最大2.5倍のディープラーニング性能を提供し、同等のモデルのトレーニングコストは約60%削減される見込みです。

現時点では、AWS の用語で p4d.24xlarge インスタンスと呼ばれる 1 つのサイズのみが利用可能であり、8 つの A100 GPU は Nvidia の NVLink 通信インターフェースを介して接続され、同社の GPUDirect インターフェースもサポートしています。
320GBの高帯域幅GPUメモリと400Gbpsのネットワークを備えたこのマシンは、明らかに非常にパワフルです。さらに96個のCPUコア、1.1TBのシステムメモリ、8TBのSSDストレージを搭載しているため、オンデマンド価格が1時間あたり32.77ドルというのも納得できます(ただし、1年間のリザーブドインスタンスの場合は1時間あたり20ドル未満、3年間のリザーブドインスタンスの場合は1時間あたり11.57ドルまで下がります)。

極端な例では、4,000台以上のGPUをEC2 UltraCluster(AWSではこれらのマシンをこう呼んでいます)に組み合わせることで、実質的にスーパーコンピュータ規模のマシンで高性能コンピューティングのワークロードを実現できます。価格を考えると、すぐにこれらのクラスターを立ち上げておもちゃのアプリのモデルをトレーニングすることは難しいでしょう。しかし、AWSはすでにトヨタ・リサーチ・インスティテュート、GEヘルスケア、Aonなど、多くのエンタープライズ顧客と協力してこれらのインスタンスとクラスターのテストを行っています。
「[トヨタ・リサーチ・インスティテュート]では、誰もが移動の自由を持つ未来の構築に取り組んでいます」と、TRIのインフラエンジニアリング担当テクニカルリード、マイク・ギャリソン氏は述べています。「前世代のP3インスタンスは、機械学習モデルのトレーニング時間を数日から数時間に短縮するのに役立ちました。P4dインスタンスの活用を楽しみにしています。追加のGPUメモリとより効率的な浮動小数点形式により、機械学習チームはより複雑なモデルをより高速にトレーニングできるようになります。」
Nvidiaは、初のAmpereベースのデータセンターGPUであるA100の出荷を開始した。
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日
トピック
AI 、 Amazon Web Services 、クラウドコンピューティング、クラウドインフラストラクチャ、コンピューティング、開発者、エンタープライズ、 GEヘルスケア、 GPGPU 、 GPU 、 Intel 、機械学習、 NVIDIA 、トヨタ研究所
フレデリックは2012年から2025年までTechCrunchに在籍していました。また、SiliconFilterを設立し、ReadWriteWeb(現ReadWrite)にも寄稿しています。フレデリックは、エンタープライズ、クラウド、開発者ツール、Google、Microsoft、ガジェット、交通機関など、興味のあるあらゆる分野をカバーしています。
バイオを見る