AIは嘘つきとして有名ですが、マイクロソフトはついにその解決策を編み出したと発表しました。当然ながら、これには疑問を抱く人もいるでしょう。そして、懐疑的になるのも無理はありません。
マイクロソフトは本日、AIが生成した事実誤認テキストを自動的に修正するサービス「Correction」を発表しました。Correctionはまず、誤りの可能性があるテキスト(例えば、企業の四半期決算説明会の要約で引用元が誤っている可能性があるテキストなど)にフラグを付け、その後、信頼できる情報源(アップロードされたトランスクリプトなど)と比較することでファクトチェックを行います。
Microsoft の Azure AI コンテンツ セーフティ API (現在はプレビュー) の一部として利用可能な Correction は、Meta の Llama や OpenAI の GPT-4o など、あらゆるテキスト生成 AI モデルで使用できます。
「この修正機能は、小規模言語モデルと大規模言語モデルを活用し、出力を基礎文書と整合させる新しいプロセスによって実現されています」と、Microsoftの広報担当者はTechCrunchに語った。「この新機能が、医療などの分野で生成AIを開発する開発者とユーザーを支援することを期待しています。医療分野では、アプリケーション開発者が回答の正確さを非常に重要視しています。」
Google は今年夏、AI 開発プラットフォーム Vertex AI に同様の機能を導入し、顧客がサードパーティ プロバイダーのデータ、独自のデータセット、または Google 検索を使用してモデルを「グラウンディング」できるようにしました。
しかし専門家は、こうしたグラウンディングのアプローチは幻覚の根本的な原因に対処していないと警告している。
「生成AIから幻覚を排除しようとするのは、水から水素を取り除こうとするようなものです」と、ワシントン大学で新興技術の倫理的影響を研究している博士課程の学生、オス・キーズ氏は述べた。「幻覚は、この技術が機能する上で不可欠な要素なのです。」
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日
テキスト生成モデルが幻覚を起こすのは、実際には何も「知らない」からです。テキスト生成モデルは、一連の単語のパターンを識別し、訓練された無数の例に基づいて次にどの単語が来るかを予測する統計システムです。
したがって、モデルの応答は答えではなく、トレーニングセットに質問 が 存在した場合にどのように答えるかを予測したものに過ぎません。結果として、モデルは真実から大きく逸脱する傾向があります。ある研究では、OpenAIのChatGPTは医療に関する質問を半分間違えることがわかりました。
Microsoft のソリューションは、幻覚を強調表示して書き換えるために設計された、相互参照のコピーエディター風のメタモデルのペアです。
分類モデルは、AIが生成したテキスト(幻覚)のうち、誤り、捏造、または無関係な可能性のある断片を探します。幻覚が検出された場合、分類モデルは2つ目のモデルである言語モデルを組み込み、指定された「グラウンディングドキュメント」に基づいて幻覚を修正しようとします。

「修正は、アプリケーション開発者がユーザーの不満や潜在的な評判リスクを軽減するのを支援することで、AI生成コンテンツの信頼性と信用性を大幅に高めることができます」とマイクロソフトの広報担当者は述べた。「グラウンデッドネス検出は『正確性』を解決するものではなく、生成AIの出力をグラウンデッド文書と整合させるのに役立つことに留意することが重要です。」
キーズ氏はこれに疑問を抱いている。
「いくつかの問題は軽減されるかもしれない」と彼らは言った。「しかし、新たな問題も生み出すだろう。結局のところ、Correction社の幻覚検出ライブラリは幻覚を引き起こす能力も備えているはずだからだ。」
Correctionモデルの背景説明を尋ねられた広報担当者は、Microsoftの研究チームが最近発表した、モデルの試作段階のアーキテクチャを説明した論文を挙げた。しかし、この論文では、モデルのトレーニングに使用されたデータセットなど、重要な詳細が省略されている。
キングス・カレッジ・ロンドンでAIを専門とするマイク・クック講師は、たとえCorrectionが宣伝通りに機能したとしても、AIをめぐる信頼性と説明可能性の問題を悪化させる恐れがあると主張した。このサービスはある程度の誤りを検知できるかもしれないが、ユーザーに誤った安心感を与え、モデルが実際よりも頻繁に真実を反映していると思い込ませてしまう可能性もある。
「マイクロソフトは、OpenAIやGoogleと同様に、モデルが頻繁に誤りを犯すシナリオでモデルに頼るという問題を生み出しました」と彼は述べた。「マイクロソフトが今やっていることは、より高いレベルでその誤りを繰り返すことです。仮にこれで安全性が90%から99%に向上したとしましょう。問題は実際にはその9%にはありませんでした。問題は、私たちがまだ検出できていない1%の誤りに常に存在するのです。」
クック氏は、MicrosoftがCorrectionをバンドルしている点には、皮肉なビジネス的側面もあると付け加えた。Correctionの機能自体は無料だが、幻覚を検出して修正するために必要な「根拠検出」は、月間5,000件の「テキストレコード」までしか無料ではない。それを超えると、1,000件のテキストレコードごとに38セントの料金がかかる。
マイクロソフトは、顧客、そして株主に対して、自社の AI が投資する価値があることを証明しなければならないというプレッシャーにさらされているのは確かだ。
第2四半期だけで、このテクノロジー大手は主にAI関連の設備投資と投資に約190億ドルを投じました。しかし、AIからの収益はまだ大きく伸びていません。ウォール街のあるアナリストは今週、長期的なAI戦略への疑念を理由に、同社の株価を引き下げました。
The Informationの記事によると、多くのアーリーアダプターが、パフォーマンスとコストへの懸念から、Microsoftの主力生成AIプラットフォームであるMicrosoft 365 Copilotの導入を一時停止しているという。Microsoft Teams会議にCopilotを使用しているあるクライアントでは、AIが参加者を偽装し、実際には議論されていない議題について会議が行われていると示唆したという。
KPMGの調査によると、AIツールの試験運用において、正確性と幻覚の可能性が企業の最大の懸念事項となっている。
「もしこれが通常の製品ライフサイクルであれば、生成AIは今でも学術的な研究開発段階にあり、改良や長所と短所の理解に努めているだろう」とクック氏は述べた。「しかし、私たちはそれを12もの業界に展開している。マイクロソフトをはじめとする企業は、人々をワクワクするような新型ロケットに乗せ、目的地に向かう途中で着陸装置やパラシュートを製造しようとしているのだ。」