GPU以上のもの:Suno創業者がジェネレーティブAIスタートアップのインフラ選択について語る | TechCrunch

GPU以上のもの:Suno創業者がジェネレーティブAIスタートアップのインフラ選択について語る | TechCrunch

スタートアップ企業の Suno AIは、非常にシンプルなインターフェースで、消費者がオンラインで独自の音楽を生成することを支援しています。テキストベースの生成AIに注力する多くのスタートアップとは異なり、Sunoはオーディオ向けモデルの構築、テスト、提供という全く異なる課題に取り組んでいます。マサチューセッツ州ケンブリッジに拠点を置く同社は、これらのモデルの作成と実行に Oracle Cloud Infrastructure (OCI)のAIインフラストラクチャをはじめとする様々なサービスを活用しています。

以下、Oracle TechおよびOCI担当バイスプレジデントのレオ・レオン氏が、 Suno AIのCEOであるマイク・シュルマン氏と、生成AIスタートアップ企業がプロバイダーに何を求め、何を必要としているかについて語ります。インタビューは、長さと分かりやすさを考慮して編集されています。

Leung: AI スタートアップの創業者は、基礎となるテクノロジーとインフラストラクチャに関して何を考えるべきでしょうか?

シュルマン:まず第一に、革新を起こしたい分野を慎重に選び、そして革新を起こしたくない分野も慎重に選ぶことです。Suno以前、システム管理などは実際には変化をもたらす分野ではないことを学びました。そのため、私たちは昼夜を問わず、オーディオをモデル化し、それを組み込むための適切な方法を模索することに注力しました。テキスト上のトランスフォーマーモデルの作成など、オープンソースコミュニティから多くのものを借りていることをオープンにしており、そこで車輪の再発明をする必要がないのは素晴らしいことです。私たちは、AとBをマッピングするだけのモデルを考えていません。なぜなら、ほとんどの人はこうしたものとのインタラクションをそのように考えていないからです。最終的に、私たちは人々が使いたくなるような製品を作り、ユーザーに快適な体験を提供するための基盤となる技術は何なのかを解明しようと努めています。

Leung:音楽データや、音楽が表す様々な種類のワークロードについて、もう少し詳しくお聞きしたいです。それについてもう少し詳しく教えていただけますか?また、それがインフラやその基盤となるテクノロジーの選択にどのような影響を与えたのでしょうか?

シュルマン氏:音楽、あるいは一般的なオーディオは、モデリングの面では画像やテキストに比べてはるかに遅れています。重要な問題は、トランスフォーマーが理解できる形でオーディオをどう表現するかということです。いくつかの問題点があり、その一つは、トランスフォーマーはトークンと呼ばれるものを扱いますが、これは離散的なものであり、オーディオは離散信号ではなく連続波であるということです。さらに、オーディオ、特に高音質オーディオの問題は、44キロヘルツまたは48キロヘルツでサンプリングされることです。1秒間のオーディオには約5万サンプルが含まれます。これはサンプル数が多すぎるため、この非常に高い周波数の信号を、より扱いやすい形に圧縮する何らかの方法が必要です。私たちは、この非常に高速にサンプリングされた連続信号を、はるかに低速にサンプリングされた離散信号として表現する適切な方法について、多くの時間を費やして革新を続けています。 

Leung:  それは必要なインフラストラクチャの種類に影響を与えましたか? それとも、同じインフラストラクチャを考えていますが、再びデータをそれらのモデルに配置できる場所に削減しようとしていますか?

シュルマン:その通りです。他の機械学習モデルと同様に、これらの実行コストはそれほど安くはありません。本番環境だけでなく、実験段階であっても、迅速に処理を実行したいものです。私たちは常に改善に努めているので、コンピューティングの弾力性、つまり可用性は重要です。 

Leung:それは私の次の質問への良い導入です。規模が拡大するにつれて、あなたと会社にとって、予想できなかったどのようなニーズの変化がありましたか?

シュルマン氏:  会社を設立した当初、まず最初にしたのは、家庭用コンセントに安全に差し込める最大のGPUボックスを購入し、そこで初期モデルの学習を開始することでした。そのボックスは隣の部屋にコンセントを抜いたまま置いてあります。モデル、実験のスループット、そして人々に展開していく上で、規模がどれほど重要になるか、私たちは全く予想していませんでした。これは決まり文句ですが、人間は指数関数的な成長について推論するのが非常に苦手です。私自身も物理学の博士号を持っているにもかかわらず、指数関数的な成長について推論するのは非常に苦手です。これは確かに私たちにとって驚きでした。また、こうした懸念事項の一部に対処する製品が市場にどれほど登場するかについても、私たちは認識していませんでした。例えば、 Oracle Clusterに初めてログインした時、必要なものがすべて揃っているように感じました。奇妙な瞬間でした。なぜなら、それはただのマシンで全てを実行できるようになったのではなく、クラスタそのものだったからです。まるで私のような人間のために作られた製品のように。質の高い仕事をするために必要な、あらゆる快適さを手に入れられるのです。

Leung:インフラについて話すと、皆さんはGPUばかりに注目しがちですが、実はプロセッサ以外にも重要なコンポーネントがあります。あなたの視点から見て、AIインフラにおいて他にどのような重要なコンポーネントを活用していますか?

シュルマン:  GPUから同心円状に広がるのは、私たちのクラスターの完成度の高さです。ユーザーの追加、ジョブの起動、ネットワーク接続ストレージ、高速SSDなど、GPUを活用できるあらゆる機能が揃っていて、本当に素晴らしいです。大容量データやユーザー生成コンテンツ用のストレージバケットなどもそうです。トレーニング側でGPUを使わずに製品をスムーズに動作させるには、あらゆるものが必要です。コンテンツを迅速に配信するサービス、ユーザー管理、キュー管理、そして様々な構成要素(一部は自社開発、一部は購入)などです。 

Leung:生成 AI に特有だと思われる特別な問題と解決策は何ですか?

シュルマン:これは急速に進化している分野で、今日当たり前だと思っていることが、明日も当たり前だとは限りません。例えば、モデルを1枚のカードに収められるか?もしかしたら今は収まるかもしれませんが、1ヶ月後には収まらなくなり、全てが台無しになってしまうかもしれません。Modalのようなツールは 素晴らしいですね。GPU上でワーカーを非常に簡単に起動できます。

生成AIは非常に計算集約的で、GPUはソフトウェア開発者にとって厄介な存在です。GPUはハードウェアとソフトウェアの抽象化という非常に神聖な障壁を破壊し、それがあらゆるところで問題を引き起こします。だからこそ、このスタックの多くは扱いにくいのだと思います。

でも、すべてがGPUというわけではなく、CPUの負荷もかなり大きいんです。オーディオ処理全般もそうです。空想にふけると、もしかしたらクラウドプロバイダーのせいで、どんなカードを使っていても気にしなくていいんじゃないか、なんて思うんです。クラウドマシンでIntel CPUを使ってもAMD CPUを使っても、別に気にしないのと同じように、それはそれでいいんですけどね。そもそも、どんなカードを使っていても気にしなきゃいけないんでしょうか? 

Leung:技術面以外では、AI スタートアップ企業はサービス プロバイダーからどのようなサポートを求めるべきでしょうか?

シュルマン:  私たちは常にこう自問しています。「プロバイダーはどれだけの負担を軽減してくれるのでしょうか?そうすれば、自社の比較優位性となるものに集中できるのです。」企業によって答えは異なります。研究重視の企業であれば、研究ツールや実験管理、ジョブ管理など、多くのリソースが必要になるでしょう。一方、研究重視ではない企業であれば、コンテンツを人々に届ける必要があるため、世界最速のCDNが必要になるかもしれません。私は常に、自分たちがすべきでないことをやっていることは何か、そしてどうすればそれを止められるのかを考えています。そして、多くの場合、解決策は存在します。必要なのは、どこを探せばよいかを知ることだけです。

Leung:最後の質問は、急成長中の AI 企業はコストについてどのように考えるべきでしょうか?

シュルマン氏:AI企業にとって、支出の大部分はコンピューティングリソースです。そのため、これは慎重に検討する必要があります。多少安価なソリューションが見つかることもありますが、信頼できるプロバイダーを選ぶことで得られる信頼性と柔軟性が、コスト削減効果をはるかに上回ることもあります。多くのサービスが登場しては消えていく中で、私たちは10年後も生き残っていきたいと考えています。ですから、10年後も生き残れる企業と取引をすべきでしょう。ある企業と取引を始めてから1年後に辞めるという計画がある場合、それは非常に意識的な決断であり、軽々しく行うべきではありません。それが、私たちが OCIを選んだ理由の一つです。つまり、信頼です。

会社を立ち上げ、クラウドプロバイダーの選択肢を検討していますか?開発と展開の加速に役立つ AI サービスを提供する OCI の幅広い ISV について詳しくは、こちらをご覧ください。