AWS が Bedrock LLM サービスに迅速なルーティングとキャッシュを導入

AWS が Bedrock LLM サービスに迅速なルーティングとキャッシュを導入

企業が生成AIを限定的なプロトタイプで試用する段階から実稼働へと移行するにつれ、価格への意識はますます高まっています。大規模言語モデル(LLM)の使用は、結局のところ安価ではありません。コスト削減の一つの方法は、古くからある概念であるキャッシュに戻ることです。もう一つの方法は、より単純なクエリをより小規模でコスト効率の高いモデルにルーティングすることです。AWSは水曜日、ラスベガスで開催されたカンファレンス「re:Invent」において、Bedrock LLMホスティングサービスにこれら二つの機能を追加することを発表しました。

まず、キャッシュサービスについてお話ししましょう。「例えば、ある文書について複数の人が同じ文書について質問しているとします。そのたびに料金が発生します」と、Bedrockのプロダクトディレクターであるアトゥル・デオ氏は語りました。「そして、こうしたコンテキストウィンドウはますます長くなっています。例えば、Novaでは30万トークン、200万トークンのコンテキストが利用可能になります。来年には、さらに増える可能性があると思います。」

画像クレジット: AWS

キャッシュは基本的に、モデルが反復的な作業を実行し、同じ(または実質的に類似した)クエリを何度も再処理するための費用を節約することを保証します。AWSによると、これによりコストを最大90%削減できるだけでなく、モデルから応答が返されるまでのレイテンシも大幅に短縮されます(AWSによると最大85%削減)。Adobeは、Bedrock上で自社のAI生成アプリケーションの一部に迅速なキャッシュをテストしたところ、応答時間が72%短縮されました。

もう1つの主要な新機能は、Bedrockのインテリジェントなプロンプトルーティングです。これにより、Bedrockは同じモデルファミリー内の異なるモデルにプロンプ​​トを自動的にルーティングできるようになり、企業がパフォーマンスとコストの適切なバランスを実現できるよう支援します。システムは(小規模な言語モデルを使用して)各モデルが特定のクエリに対してどのようにパフォーマンスを発揮するかを自動的に予測し、それに応じてリクエストをルーティングします。

画像クレジット: AWS

「クエリが非常に単純な場合もあります。そのクエリを、非常に高コストで低速な、最も有能なモデルに送信する必要があるでしょうか?おそらくそうではないでしょう。つまり、基本的には『実行時に、入力されたプロンプトに基づいて、適切なクエリを適切なモデルに送信する』という考え方を構築する必要があるのです」とデオ氏は説明した。

もちろん、LLMルーティングは新しい概念ではありません。Martianのようなスタートアップや多くのオープンソースプロジェクトもこの技術に取り組んでいますが、AWSはおそらく、ルーターが人間の介入をほとんど必要とせずにクエリをインテリジェントにルーティングできる点が自社製品の差別化要因だと主張するでしょう。しかし、この技術には限界があり、同じモデルファミリー内のモデルにしかクエリをルーティングできません。しかし、Deo氏によると、長期的にはこのシステムを拡張し、ユーザーにさらなるカスタマイズ性を提供していく計画だそうです。

画像クレジット: AWS

最後に、AWSはBedrock向けの新たなマーケットプレイスも立ち上げます。Deo氏によると、Amazonは多くの大手モデルプロバイダーと提携しているものの、現在では数百もの特化型モデルが存在し、専用ユーザーが少数しかいない可能性があるという状況を踏まえ、AWSはこれらのモデル向けのマーケットプレイスを立ち上げました。これらの顧客はAWSに対し、これらのモデルのサポートを求めているため、AWSはこれらのモデル向けのマーケットプレイスを立ち上げます。唯一の大きな違いは、ユーザーがインフラのキャパシティを自らプロビジョニングし、管理する必要があることです。これはBedrockでは通常自動的に処理されます。AWSは、これらの新興モデルと特化型モデルを合わせて約100種類提供し、今後もさらに増やしていく予定です。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

Amazon re:Invent 2024 カンファレンスのロゴ

2024年12月3日~2024年12月6日

ストーリーラインより: AWS re:Invent 2024: Amazon最大のイベントのライブアップデート

Amazon の re:invent 2024 カンファレンスがラスベガスに戻り、12 月 6 日まで一連の発表と基調講演が行われます。AI は…

フレデリックは2012年から2025年までTechCrunchに在籍していました。また、SiliconFilterを設立し、ReadWriteWeb(現ReadWrite)にも寄稿しています。フレデリックは、エンタープライズ、クラウド、開発者ツール、Google、Microsoft、ガジェット、交通機関など、興味のあるあらゆる分野をカバーしています。

バイオを見る