AWSの新サービスはAIの幻覚に対処する

AWSの新サービスはAIの幻覚に対処する

Amazon のクラウド コンピューティング部門である Amazon Web Services (AWS) は、幻覚、つまり AI モデルが信頼できない動作をするシナリオに対抗するための新しいツールを発表します。

ラスベガスで開催されたAWS re:Invent 2024カンファレンスで発表されたこのサービス「Automated Reasoning checks」は、顧客提供の情報と照合することでモデルの応答の正確性を検証します(「checks」は小文字です)。AWSはプレスリリースで、Automated Reasoning checksは幻覚に対する「初」かつ「唯一の」安全策であると主張しています。

しかし、それはまあ…寛大な言い方です。

自動推論チェックは、マイクロソフトが今夏に導入した「修正機能」とほぼ同じで、AI生成テキストに事実誤認の可能性がある場合にフラグを立てる機能も備えています。Googleはまた、AI開発プラットフォームであるVertex AIにツールを提供しており、顧客はサードパーティプロバイダーのデータ、自社データセット、あるいはGoogle検索を用いてモデルを「グラウンディング」することができます。

いずれにせよ、AWSのBedrockモデルホスティングサービス(具体的にはGuardrailsツール)を通じて利用できる自動推論チェックは、モデルがどのようにして答えに至ったかを解明し、その答えが正しいかどうかを判断しようとします。顧客は情報をアップロードすることで、いわばグラウンドトゥルースを確立し、自動推論チェックはルールを作成し、それを改良してモデルに適用します。

モデルが回答を生成すると、自動推論機能がそれらを検証し、幻覚の可能性が疑われる場合は、グラウンドトゥルース(真実)に基づいて正しい回答を導き出します。この回答と、おそらく誤った回答とを並べて提示することで、顧客はモデルの予測がどれほど的外れだったかを把握できます。

AWSによると、PwCはすでに顧客向けAIアシスタントの設計に自動推論チェックを活用しているという。AWSのAI・データ担当バイスプレジデントであるスワミ・シヴァスブラマニアン氏は、こうしたツールこそがBedrockの顧客を惹きつけている理由だと示唆した。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

「これらの新機能の導入により、私たちはお客様に代わってイノベーションを起こし、生成AIアプリケーションを本番環境に移行する際に業界全体が直面する主要な課題のいくつかを解決していきます」とシヴァスブラマニアン氏は声明で述べた。ベッドロックの顧客基盤は昨年4.7倍に拡大し、数万人規模に達したとシヴァスブラマニアン氏は付け加えた。

しかし、ある専門家がこの夏私に言ったように、生成AIから幻覚を排除しようとするのは、水から水素を排除しようとするようなものだ。

AIモデルが幻覚を起こすのは、実際には何も「知らない」からです。AIモデルは、一連のデータからパターンを識別し、過去の例に基づいて次にどのデータが来るかを予測する統計システムです。つまり、モデルの応答は答えではなく、質問にどのように 答えるべきかを予測したもので 、誤差の範囲内でしかありません。

AWSは、自動推論チェックは「論理的に正確」かつ「検証可能な推論」に基づいて結論を導き出していると主張している。しかし、同社はこのツールの信頼性を示すデータを一切提供していない。

Bedrockに関するその他のニュースとして、AWSは本日午前、大規模モデル(例:Llama 405B)の機能を、より安価で高速に実行できる小規模モデル(例:Llama 8B)に移植するツール「Model Distillation」を発表しました。AWSによると、Model DistillationはMicrosoftのAzure AI FoundryにおけるDistillationへの対抗策として、様々なモデルを低コストで試す手段を提供するとのことです。

AWS re:Invent 2024 ベッドロック
画像クレジット: Frederic Lardinois/TechCrunch

「顧客がサンプルプロンプトを提供すると、Amazon Bedrock が応答を生成し、小さなモデルを微調整するためのすべての作業を実行します」と AWS はブログ投稿で説明し、「さらに、必要に応じて、蒸留プロセスを完了するために、より多くのサンプルデータを作成することもできます。」

ただし、いくつか注意点があります。

Model Distillationは現在、AnthropicとMetaのBedrockホストモデルでのみ動作します。お客様は、同じモデル「ファミリー」から大規模モデルと小規模モデルを選択する必要があります。異なるプロバイダーのモデルは使用できません。また、蒸留されたモデルの精度は若干低下しますが、AWSによると「2%未満」とのことです。

それでも問題が解決しない場合は、Model Distillation と Automated Reasoning チェックがプレビューで利用できるようになりました。

また、プレビュー版では「マルチエージェントコラボレーション」もご利用いただけます。これは、お客様がAIを大規模プロジェクトのサブタスクに割り当てることができるBedrockの新機能です。AWSがAIエージェントブームに貢献したBedrock Agentsの一部であるマルチエージェントコラボレーションは、財務記録の確認や世界的トレンドの評価といった用途に合わせてAIを作成・調整するためのツールを提供します。

顧客は「スーパーバイザーエージェント」を指定して、タスクをAIに自動的に分割・ルーティングすることもできます。AWSによると、スーパーバイザーは「特定のエージェントに、作業完了に必要な情報へのアクセスを許可」し、「どのアクションを並行して処理できるか、どのアクションを他のタスクから詳細を取得してからでないとエージェントが先に進むことができないか」を判断できます。

「すべての特化型AIが入力を完了すると、スーパーバイザーエージェントが情報をまとめて結果を統合できる」とAWSは投稿で述べている。

面白そうですね。でも、これらの機能すべてと同様に、実際に導入したときにどれだけうまく機能するかを見極める必要があります。