Run.aiはNvidiaと提携し、推論技術に着手

Run.aiはNvidiaと提携し、推論技術に着手

AIワークロードをオーケストレーションするための資金豊富なサービスであるRun.aiは、ユーザーがオンプレミスとクラウドのGPUリソ​​ースを最大限に活用してモデルをトレーニングできるようにすることで、ここ数年で名を馳せてきました。しかし、モデルのトレーニングと本番環境への導入は別物であり、多くのプロジェクトが依然としてそこで失敗していることは周知の事実です。そのため、エンドツーエンドのプラットフォームであると自負する同社が、トレーニングの域を超えて、プライベートクラウド、パブリッククラウド、エッジを問わず、顧客が推論ワークロードを可能な限り効率的に実行できるようにサポートするようになったのも、驚くことではないかもしれません。これにより、同社のプラットフォームは、両社の緊密な提携により、NvidiaのTriton Inference Serverソフトウェアとの統合も提供するようになりました。

「過去6~12ヶ月で私たちが認識したことの一つは、組織が機械学習モデルの構築とトレーニングから、実際にそれらのモデルを本番環境で運用する段階に移行し始めていることです」と、Run.aiの共同創業者兼CEOであるオムリ・ゲラー氏は語った。「私たちもこの課題を克服するために、社内に多大なリソースを投入し始めました。トレーニングの部分を克服し、適切なリソース管理を構築できたと考えています。そのため、今後は組織が推論用のコンピューティングリソースを管理できるよう支援することに注力していきます。」

画像クレジット: Nvidia

ここでの狙いは、企業がモデルを可能な限り簡単にデプロイできるようにすることです。Run.aiは、YAMLファイルの記述を必要としない2段階のデプロイプロセスを約束します。Run.aiはコンテナとKubernetesへの早期の投資により、これらの推論ワークロードを最も効率的なハードウェアに移行できるようになりました。また、Run.ai AtlasプラットフォームへのNvidiaの新たな統合により、ユーザーはTriton推論サーバー上に複数のモデル、あるいは同一モデルのインスタンスをデプロイすることも可能です。NvidiaのLaunchPadプログラムにも参加しているRun.aiは、モデルごとに自動スケーリングと優先順位付けを行います。

推論にはモデルのトレーニングに必要なような膨大なコンピューティング リソースは必要ないが、NVIDIA のエンタープライズ コンピューティング担当 VP である Manuvir Das 氏は、これらのモデルはますます大規模になっており、CPU に展開するのは不可能だと指摘しました。「私たちは Triton Inference Server と呼ばれるものを構築しました。これは、CPU だけでなく GPU でも推論を行うものです。GPU のパワーが推論にとって重要になり始めているからです」と、同氏は説明しました。「以前はトレーニングに GPU が必要で、モデルができたら CPU に問題なく展開できました。しかし、モデルはますます大きく複雑になっているため、実際に GPU で実行する必要があります。」

ゲラー氏が付け加えたように、モデルは時間とともにますます複雑になる一方です。結局のところ、モデルの計算の複雑さとその精度、そして企業がそれらのモデルで解決できる問題との間には直接的な相関関係があると指摘しました。

Run.aiは当初、学習に重点を置いていましたが、学習用に構築した多くの技術を推論にも応用することができました。例えば、学習用に構築したリソース共有システムは推論にも適用可能で、特定のモデルではリアルタイムで実行するためにより多くのリソースが必要になる場合があります。

これらの機能はNVIDIAもTriton推論サーバーに組み込めるかもしれない、と思われるかもしれませんが、Das氏は、同社が市場にアプローチする方法はそうではないと指摘しました。「大規模なデータサイエンスに取り組む人は誰でも、すべてを実行できる、非常に優れたエンドツーエンドのML運用プラットフォームが必要です」と彼は述べました。「それがRun.aiの得意とするところです。そして、その基盤として、GPUを個別に有効活用するための低レベルの構造を提供しています。そして、それを適切に統合すれば、両方の長所を最大限活用できます。これが、私たちがうまく連携できた理由の一つです。なぜなら、責任の分離は当初から両社にとって明確だったからです。」

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

NVIDIAとの提携に加え、Run.aiは本日、プラットフォームのアップデートをいくつか発表しました。これには、推論に特化した新しいメトリクスとダッシュボード、そしてフラクショナルGPUへのモデルのデプロイ機能と、個々のレイテンシSLA(サービスレベル契約)に基づいた自動スケーリング機能が含まれます。また、このプラットフォームはデプロイをゼロまでスケールできるようになり、コスト削減にも貢献します。

フレデリックは2012年から2025年までTechCrunchに在籍していました。また、SiliconFilterを設立し、ReadWriteWeb(現ReadWrite)にも寄稿しています。フレデリックは、エンタープライズ、クラウド、開発者ツール、Google、Microsoft、ガジェット、交通機関など、興味のあるあらゆる分野をカバーしています。

バイオを見る