MetaはカスタムチップとスーパーコンピュータでAIに大きく賭ける

MetaはカスタムチップとスーパーコンピュータでAIに大きく賭ける

今朝のバーチャル イベントで、Meta は、最近リリースされた広告デザインおよび作成ツールの基盤となるような生成 AI を含む AI ワークロード向けの社内インフラストラクチャを開発する取り組みを発表しました。

これは、歴史的にAIに適したハードウェアシステムの導入が遅く、GoogleやMicrosoftなどのライバルに追いつくのが困難だったMetaの強さを示す試みだった。

独自のハードウェア機能を構築することで、データセンターの設計からトレーニングフレームワークまで、スタックのあらゆるレイヤーを制御できるようになります」と、Metaのインフラストラクチャ担当VP、アレクシス・ビョルリン氏はTechCrunchに語った。「このレベルの垂直統合は、AI研究の限界を大規模に押し広げるために不可欠です。」

過去10年ほど、Metaは数十億ドルを投じてトップクラスのデータサイエンティストを採用し、新しいタイプのAIを開発してきました。その中には、同社のアプリやサービス全体に搭載されている発見エンジン、モデレーションフィルター、広告レコメンデーション機能を支えるAIも含まれています。しかし、同社は、特に生成型AIの分野において、野心的なAI研究のイノベーションの多くを製品化することに苦戦しています。

2022年まで、MetaはAIワークロードを主にCPU(この種のタスクではGPUよりも効率が低い傾向にある)と、AIアルゴリズムを高速化するために設計されたカスタムチップの組み合わせで実行していました。Metaは2022年に計画されていたカスタムチップの大規模展開を中止し、代わりに数十億ドル相当のNVIDIA GPUを発注しました。これにより、複数のデータセンターの大幅な再設計が必要となりました。

状況を好転させるため、MetaはAIモデルの学習と実行の両方が可能な、より野心的な自社製チップの開発に着手する計画を立てました。このチップは2025年にリリース予定です。これが本日のプレゼンテーションの主題でした。

Metaは、この新しいチップをMeta Training and Inference Accelerator(略してMTIA)と呼び、AIトレーニングと推論ワークロードを高速化するチップの「ファミリー」の一部であると説明しています。(「推論」とは、トレーニング済みのモデルを実行することを指します。)MTIAはASICの一種で、1つの基板上に異なる回路を組み合わせたチップであり、1つまたは複数のタスクを並列に実行するようにプログラムできます。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

Meta AI accelerator chip
AIワークロード向けにカスタム設計されたMetaのAIチップ。画像クレジット: Meta

「重要なワークロード全体でより高いレベルの効率性とパフォーマンスを実現するためには、モデル、ソフトウェアスタック、システムハードウェアが連携して設計された、カスタマイズされたソリューションが必要でした」とビョルリン氏は続けました。「これにより、様々なサービスにおいてユーザーエクスペリエンスが向上します。」

カスタムAIチップは、大手テック企業の間でますます注目を集めています。Googleは、PaLM-2やImagenといった大規模な生成AIシステムの学習用に、TPU(テンソル・プロセッシング・ユニットの略)と呼ばれるプロセッサを開発しました。AmazonはAWSの顧客に対し、学習用(Trainium)と推論用(Inferentia)の両方に独自のチップを提供しています。また、MicrosoftはAMDと共同でAthenaと呼ばれる自社製AIチップを開発していると報じられています。

Meta社によると、MTIAの第一世代であるMTIA v1は2020年に7ナノメートルプロセスで開発されました。内部メモリは128MBから最大128GBまで拡張可能で、Meta社が設計したベンチマークテスト(もちろん、この結果は鵜呑みにすべきではありませんが)において、MTIAは「低複雑度」および「中複雑度」のAIモデルをGPUよりも効率的に処理したとMeta社は主張しています。

Meta氏によると、チップのメモリとネットワーク領域には依然として課題が残されている。AIモデルの規模が大きくなるにつれて、これらの領域がボトルネックとなり、ワークロードを複数のチップに分割する必要が生じるからだ。(Meta社が最近、英国のチップユニコーン企業GraphcoreでAIネットワーク技術を開発するオスロ拠点のチームを買収したのは偶然ではない。)そして現時点では、MTIAはMetaのアプリファミリー全体にわたる「推奨ワークロード」の推論(トレーニングではなく)にのみ焦点を当てている。

しかしMetaは、改良を続けているMTIAによって、推奨ワークロードを実行する際のワット当たりのパフォーマンスの点で同社の効率が「大幅に」向上し、その結果Metaが「より強化された」「最先端の」(明らかに)AIワークロードを実行できるようになると強調した。

AI用スーパーコンピュータ

将来的には、MetaはAIワークロードの大部分をMTIAバンクに委ねることになるかもしれない。しかし今のところ、このソーシャルネットワークは研究に特化したスーパーコンピュータ「Research SuperCluster(RSC)」のGPUに依存している。

2022年1月に初めて公開されたRSCは、Penguin Computing、Nvidia、Pure Storageとの提携により構築され、第2フェーズの拡張を完了しました。Metaによると、RSCには現在、合計2,000台のNvidia DGX A100システムが含まれており、16,000基のNvidia A100 GPUが搭載されています。

では、なぜ自社でスーパーコンピュータを構築するのでしょうか?まず、同調圧力があります。数年前、マイクロソフトはOpenAIとの提携で構築したAIスーパーコンピュータを大々的に宣伝し、最近ではNVIDIAと提携してAzureクラウド上に新たなAIスーパーコンピュータを構築すると発表しました。一方、Googleは26,000基のNVIDIA H100 GPUを搭載した独自のAI特化型スーパーコンピュータを宣伝しており、Metaのスーパーコンピュータを凌駕しています。

Meta supercomputer
MetaのAI研究用スーパーコンピュータ。画像提供: Meta

しかし、Meta社によると、RSCは競合他社に追いつくだけでなく、研究者がMeta社の本番システムの実世界サンプルを用いてモデルを訓練できるというメリットももたらしているという。これは、オープンソースや公開されているデータセットのみを活用していた同社の従来のAIインフラストラクチャとは大きく異なる。

「RSC AIスーパーコンピュータは、生成AIを含む様々な分野においてAI研究の限界を押し広げるために利用されています」とMetaの広報担当者は述べています。「これはAI研究の生産性向上に大きく貢献しています。私たちは、AI研究者がモデルを開発し、AIを進化させるためのトレーニングプラットフォームを提供できるよう、最先端のインフラを提供したいと考えました。」

RSCはピーク時には約5エクサフロップスの演算能力に達し、同社によれば世界最速クラスの性能を誇るという。(この数値が誤解を招く恐れがあるため、一部の専門家はエクサフロップスという性能指標を懐疑的に捉えており、RSCの性能は世界最速のスーパーコンピュータの多くにはるかに及ばない点を指摘しておく必要がある。)

Meta社によると、同社はRSCを用いてLLaMA(「Large Language Model Meta AI」の頭文字を取った造語)の学習を行ったという。LLaMAは、同社が今年初めに研究者向けに「ゲートリリース」として公開した大規模言語モデルであり、その後、様々なインターネットコミュニティに流出した。Meta社によると、最大のLLaMAモデルは2,048基のA100 GPUで学習され、21日間を要したという。

「独自のスーパーコンピューティング機能を構築することで、データセンターの設計からトレーニングフレームワークに至るまで、スタックのあらゆるレイヤーを制御できるようになります」と広報担当者は付け加えた。「RSCは、MetaのAI研究者が、数兆もの事例から学習し、数百の異なる言語に対応し、テキスト、画像、動画をシームレスに分析し、新しい拡張現実ツールを開発するなど、より優れた新しいAIモデルを構築するのを支援します。」

ビデオトランスコーダ

Metaは本日のイベントで、MTIAに加え、特定の種類のコンピューティングワークロードを処理するための別のチップを開発中であると発表しました。Meta Scalable Video Processor(MSVP)と呼ばれるこのチップは、ビデオ・オン・デマンド(VOD)やライブストリーミングの処理ニーズに合わせて設計された、Meta初の自社開発ASICソリューションです。

読者の皆様も覚えていらっしゃるかもしれませんが、Meta は数年前からカスタム サーバーサイド ビデオ チップの構想を練り始めており、2019 年にビデオ トランスコーディングおよび推論作業用の ASIC を発表しました。これはそうした取り組みの成果であると同時に、特にライブ ビデオの分野で競争上の優位性を確保するための新たな取り組みでもあります。

「Facebookだけでも、ユーザーはアプリ使用時間の50%を動画視聴に費やしています」と、Metaのテクニカルリードマネージャーであるハリクリシュナ・レディ氏とユンチン・チェン氏は、今朝公開された共同執筆ブログ記事で述べています。「世界中の多種多様なデバイス(モバイルデバイス、ラップトップ、テレビなど)に対応するため、例えばFacebookやInstagramにアップロードされた動画は、エンコード形式、解像度、品質が異なる複数のビットストリームにトランスコードされます。…MSVPはプログラム可能でスケーラブルであり、VODに必要な高品質のトランスコードと、ライブストリーミングに必要な低遅延と高速処理の両方を効率的にサポートするように構成できます。」

Meta video chip
ストリーミングやトランスコーディングなどのビデオワークロードを高速化するために設計されたMetaのカスタムチップ。画像クレジット: Meta

Meta社は、最終的には「安定的かつ成熟した」ビデオ処理ワークロードの大部分をMSVPにオフロードし、特定のカスタマイズと「大幅に」高い品質を必要とするワークロードにのみソフトウェアビデオエンコーディングを使用する計画だと述べています。Meta社によると、スマートノイズ除去や画像強調などの前処理手法、およびアーティファクト除去や超解像などの後処理手法を用いて、MSVPによるビデオ品質の向上に向けた取り組みは継続されています。

「将来的には、MSVP により、短編動画など、Meta の最も重要なユースケースとニーズをさらにサポートできるようになり、生成 AI、AR/VR、その他のメタバース コンテンツを効率的に配信できるようになります」と Reddy 氏と Chen 氏は語っています。

AIに焦点を当てる

今日のハードウェア発表に共通点があるとすれば、それは Meta が AI、特に生成 AI に関して、必死になってペースを上げようとしていることだ。

同様のことは以前から予告されていた。2月、CEOのマーク・ザッカーバーグ氏は、MetaのAI向けコンピューティング能力の増強を最優先事項としていると報じられており、同社の研究開発を「ターボチャージ」するための新たなトップレベルの生成AIチームを発表した。CTOのアンドリュー・ボズワース氏も最近、生成AIはザッカーバーグ氏と最も多くの時間を費やしている分野だと述べた。また、チーフサイエンティストのヤン・ルカン氏は、Metaが生成AIツールを仮想現実(VR)内のアイテム作成に活用する計画だと述べた。

「WhatsAppやMessengerでのチャット体験、FacebookやInstagramの投稿や広告のためのビジュアル作成ツール、そして将来的には動画やマルチモーダル体験も検討しています」と、ザッカーバーグ氏は4月に行われたMetaの第1四半期決算発表で述べた。「これらのツールは、一般の人々からクリエイター、そして企業まで、あらゆる人にとって価値あるものになると考えています。例えば、ビジネスメッセージングやカスタマーサポートのためのAIエージェントは、その体験を実現できれば大きな関心を集めるでしょう。将来的には、メタバースへの取り組みにも広がり、アバター、オブジェクト、世界、そしてそれらを結びつけるコードを、より簡単に作成できるようになるでしょう。」

Metaは、生成型AIの(潜在的に巨大な)市場を獲得するための動きが遅いのではないかと懸念する投資家からのプレッシャーが高まっていると感じている。Bard、Bing Chat、ChatGPTといったチャットボットに対する答えはまだ見つかっていない。また、爆発的な成長を遂げているもう一つの主要分野である画像生成についても、大きな進展は見られない。

予測が正しければ、生成型AIソフトウェアの市場規模は1500億ドルに達する可能性があります。ゴールドマン・サックスは、GDPが7%上昇すると予測しています。

そのほんの一部でも、メタがARヘッドセット、会議ソフトウェア、Horizo​​n WorldsのようなVRプレイグラウンドといった「メタバース」技術への投資で失った数十億ドルを帳消しにできる可能性がある。メタのAR技術担当部門であるReality Labsは、前四半期に40億ドルの純損失を計上し、同社は第1四半期の電話会議で「2023年には営業損失が前年比で増加する」と予想していると述べた。