Exafunctionはハードウェアを抽象化することでAI開発コストを削減することを目指している

Exafunctionはハードウェアを抽象化することでAI開発コストを削減することを目指している

今日の最も洗練されたAIシステムは、街中での車の誘導から人間のような文章の作成まで、目覚ましい成果を上げています。しかし、それらには共通のボトルネック、つまりハードウェアがあります。最先端のシステムの開発には、しばしば膨大な計算能力が必要です。例えば、DeepMindのタンパク質構造予測システムAlphaFoldの開発には、数百基のGPUクラスターが必要でした。さらにこの難しさを裏付けるように、ある情報筋は、AIスタートアップ企業OpenAIの言語生成システムGPT-3を単一のGPUで開発するには355年かかっただろうと推定しています。

AIシステム開発の特定の側面を加速するように設計された新しい技術とチップは、ハードウェア要件の削減を約束しており(そして実際、既に実現しています)、しかし、これらの技術を用いた開発には専門知識が必要であり、中小企業にとっては入手が難しい場合があります。少なくとも、これはインフラスタートアップ企業Exafunctionの共同創業者であるVarun Mohan氏とDouglas Chen氏の主張です。本日ステルス状態から脱却したExafunctionは、ハードウェアを用いたAIシステムのトレーニングの複雑さを抽象化するプラットフォームを開発しています。

「AIの進歩は、多くの場合、計算複雑性の大幅な増加によって支えられています。その結果、企業はディープラーニングのメリットを実現するために、ハードウェアに多額の投資をせざるを得なくなります。しかし、技術の進歩があまりにも急速で、ディープラーニングが企業内で価値を証明していくにつれてワークロードが急速に増加するため、これは非常に困難です」とチェン氏はTechCrunchのメールインタビューで語った。「ディープラーニングの計算を大規模に実行するために必要な専用のアクセラレーターチップは不足しています。また、これらのチップを効率的に使用するには、ディープラーニングの専門家でさえもあまり知らないような難解な知識も必要です。」

Exafunctionは、2,800万ドルのベンチャーキャピタル(うち2,500万ドルはGreenoaksがリードしFounders Fundも参加したシリーズAラウンドから調達)を調達し、AIにおける専門知識不足の兆候とされるアイドル状態のハードウェアの解消を目指しています。AIシステムを「トレーニング」する(つまり、システムが予測を行うために使用するデータを供給する)ために使用されるGPUや前述の特殊チップは、しばしば十分に活用されていません。これらのチップは一部のAIワークロードを非常に速く完了するため、プロセッサやメモリなど、ハードウェアスタックの他のコンポーネントが追いつくまでアイドル状態のままになっています。

AI開発プラットフォーム「Weights and Biases」の創設者であるルーカス・ベイウォルド氏は、同社の顧客の約3分の1が平均15%未満のGPU使用率であると報告しています。一方、Exafunctionの競合企業であるRun:AIが委託した2021年の調査では、AIリソースの「高い使用率」を達成できたと回答した企業はわずか17%で、22%はインフラがほとんどアイドル状態にあると回答しました。

コストは積み重なっていく。Run:AIによると、2021年10月時点で、ハードウェア、ソフトウェア、クラウド料金を含むAIインフラの年間予算が100万ドルを超える企業は38%に上った。OpenAIはGPT-3のトレーニングに460万ドルを費やしたと推定されている。

「ディープラーニング分野で事業を展開する企業のほとんどは、リソースの最適化に時間とリソースを費やすのではなく、コア技術に集中するために事業を始めています」とモハン氏はメールで述べた。「私たちが注力している問題、つまりGPUのような高速ハードウェアの管理という課題を抽象化し、顧客に優れたパフォーマンスを提供するという問題に対処できる有力な競合企業は存在しないと考えています。」

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

アイデアの種

Exafunctionの共同創業者となる以前、チェン氏はFacebookのソフトウェアエンジニアとして、Oculus Questなどのデバイス向けツールの開発に携わっていました。モハン氏は、自動運転配送のスタートアップ企業Nuroで技術リーダーを務め、同社の自動運転インフラチームの管理を担当していました。

「[Nuroにおける]ディープラーニングのワークロードが複雑化し、要求が厳しくなるにつれ、ハードウェアをそれに応じて拡張するための明確なソリューションがないことが明らかになりました」とMohan氏は述べた。「シミュレーションというのは奇妙な問題です。逆説的かもしれませんが、ソフトウェアが改良されるにつれて、コーナーケースを見つけるためにさらに多くの反復シミュレーションが必要になります。製品が優れているほど、欠陥を見つけるための探索は困難になります。私たちはこれがどれほど難しいかを身をもって学び、数千時間のエンジニアリング時間を費やして、保有するリソースから最大限のパフォーマンスを引き出そうとしました。」

エクサファンクション
画像クレジット: Exafunction

Exafunctionの顧客は、同社のマネージドサービスに接続するか、KubernetesクラスターにExafunctionのソフトウェアをデプロイします。このテクノロジーはリソースを動的に割り当て、利用可能な場合はスポットインスタンスなどの「費用対効果の高いハードウェア」に計算を移行します。

Exafunctionプラットフォームの内部構造について尋ねられたMohan氏とChen氏は、今のところ詳細は伏せておきたいと述べ、答えを避けた。しかし、大まかに言えば、Exafunctionは仮想化技術を活用して、ハードウェアの可用性が限られている場合でもAIワークロードを実行し、コストを削減しながら利用率を向上させると説明してくれた。

Exafunctionが自社の技術に関する情報、特にGoogleのテンソルプロセッシングユニット(TPU)のようなクラウドホスト型アクセラレータチップのサポートの有無などについて、情報を明かそうとしないことは懸念材料となっている。しかし、モハン氏は具体的な企業名を挙げずに、Exafunctionが既に「コンピュータービジョンの最先端を行く、最も高度な自動運転技術を提供する企業や組織」向けにGPUを管理していると述べた。

「Exafunctionは、GPUなどのアクセラレーションハードウェアからワークロードを分離するプラットフォームを提供します。これにより、最大限の効率的な利用が保証され、コスト削減、パフォーマンス向上、そして企業がハードウェアのメリットを最大限に享受できるようになります。…このプラットフォームにより、チームは複数のソフトウェアライブラリを統合する手間をかけずに、単一のプラットフォーム上で作業を統合できます」と彼は付け加えた。「私たちは、Exafunctionの製品が市場を大きく変革し、AWSがクラウドコンピューティングにもたらした効果をディープラーニングにもたらしてくれると期待しています。」

成長市場

モハン氏はExafunctionに壮大な計画を描いているかもしれないが、AIワークロードに「インテリジェント」なインフラ割り当てという概念を適用しているのは、このスタートアップだけではない。AIワークロードを最適化するための抽象化レイヤーも提供するRun:AIに加え、Grid.aiは データサイエンティストが複数のハードウェアをまたいでAIモデルを並列学習できるソフトウェアを提供している。一方、NVIDIAはAI Enterpriseを販売している。これは、企業がNVIDIA認定サーバー上でAIワークロードを仮想化できるようにするツールとフレームワークのスイートだ。 

しかし、モハン氏とチェン氏は、競争が激しいにもかかわらず、巨大な潜在的市場が存在すると見ている。会話の中で、彼らはExafunctionのサブスクリプション型プラットフォームを、AI開発の障壁を下げるだけでなく、サプライチェーンの制約に直面している企業が手持ちのハードウェアから「より多くの価値を引き出す」ための手段として位置付けた(近年、様々な理由からGPUは人気商品となっている)。クラウドは常に存在するが、モハン氏とチェン氏が指摘するように、コストを押し上げる可能性がある。ある推計によると、オンプレミスのハードウェアを用いたAIモデルのトレーニングは、最もコストの低いクラウドベースの代替手段と比べて最大6.5倍も安価だという。

「ディープラーニングの応用範囲は事実上無限ですが、中でも特に期待しているのは、自動運転車のシミュレーションと大規模なビデオ推論です」とモハン氏は述べた。「シミュレーションは、自動運転車業界におけるあらゆるソフトウェア開発と検証の中核を成しています。…ディープラーニングはまた、自動ビデオ処理においても驚異的な進歩をもたらし、様々な業界で活用されています。しかし、GPUは自動運転車メーカーにとって不可欠であるにもかかわらず、その価格と希少性にもかかわらず、そのハードウェアは十分に活用されていないことがよくあります。[コンピュータービジョンアプリケーション]もまた、膨大な計算量を必要とします。なぜなら、新しいビデオストリームは事実上、大量のデータ(各カメラが1日に数百万フレームを出力するため)に相当するからです。」

Mohan氏とChen氏は、シリーズAで調達した資金はExafunctionのチーム拡大と製品の「深化」に充てられると述べています。同社はまた、「レイテンシに最も敏感なアプリケーション」(自動運転やコンピュータービジョンなど)向けにAIシステムのランタイムを最適化することにも投資する予定です。

「現在、私たちはエンジニアリングに重点を置いた強力で機敏なチームですが、2022年には組織の規模と能力を急速に拡大していく予定です」とモハン氏は述べた。「ほぼすべての業界において、ワークロードが複雑化するにつれて(そしてディープラーニングの知見を活用したいと考える企業が増えるにつれて)、コンピューティングの需要が供給を大幅に上回っていることは明らかです。パンデミックによってこうした懸念が浮き彫りになりましたが、この現象とそれに関連するボトルネックは、特に最先端モデルの要求が指数関数的に高まるにつれて、今後数年間でさらに深刻化すると予想されます。」