マイクロソフトのコンピュータービジョンモデルがReddit画像の代替テキストを生成する

マイクロソフトのコンピュータービジョンモデルがReddit画像の代替テキストを生成する

2年前、マイクロソフトは現代のコンピュータービジョンモデルを「完全に再考」すると謳ったAIシステム「Florence」を発表しました。当時の多くのビジョンモデルとは異なり、Florenceは「統合型」かつ「マルチモーダル」であり、(1) 画像だけでなく言語も理解でき、(2) キャプション生成といった特定の用途に限定されることなく、幅広いタスクを処理できるという特徴がありました。

マイクロソフトは、AI研究の商業化に向けたより広範な継続的な取り組みの一環として、Azure Cognitive ServicesのVision APIのアップデートの一環として、Florenceを提供します。Florenceを搭載したMicrosoft Vision Servicesは、既存のAzureユーザー向けに本日プレビュー版としてリリースされ、自動キャプション作成、背景除去、動画要約、画像検索など、幅広い機能を提供します。

「フローレンスは数十億もの画像とテキストのペアで学習しています。その結果、非常に汎用性が高くなっています」と、Azure AI担当CVPのジョン・モンゴメリー氏はTechCrunchのメールインタビューで語った。「フローレンスに動画内の特定のフレームを見つけるように指示すれば、それはできます。コズミッククリスプとハニークリスプのリンゴの違いを判別するように指示すれば、それもできます。」

マイクロソフトのような巨大テクノロジー企業を含むAI研究コミュニティは、マルチモーダルモデルこそがより高性能なAIシステムへの最善の道であるという考えにますます賛同しつつあります。当然のことながら、マルチモーダルモデル(つまり、言語と画像、あるいは動画と音声など、複数のモダリティを理解するモデル)は、ユニモーダルモデルでは不可能なタスク(例えば、動画へのキャプションの付与)を一度に実行できます。

同じ目的を達成するために、画像のみを理解するモデルと言語のみを理解するモデルなど、複数の「ユニモーダル」モデルを組み合わせてはどうでしょうか? 理由はいくつかありますが、まず第一に、マルチモーダルモデルは、追加モダリティからのコンテキスト情報により、同じタスクにおいてユニモーダルモデルよりも優れたパフォーマンスを発揮する場合があります。例えば、画像、価格データ、購入履歴を理解するAIアシスタントは、価格データのみを理解するAIアシスタントよりも、よりパーソナライズされた商品提案を提供できる可能性が高くなります。

2つ目の理由は、マルチモーダルモデルは計算の観点からより効率的である傾向があることです。これにより、処理速度が向上し、バックエンドのコストが(おそらく)削減されます。Microsoftは利益を追求する企業であるため、これは間違いなくプラス要因です。

では、Florenceはどうでしょうか?画像、動画、言語、そしてそれらのモダリティ間の関係性を理解するため、画像とテキストの類似度を測定したり、写真内のオブジェクトを分割して別の背景に貼り付けたりといったことが可能です。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

「大規模な基礎モデルを使用する場合、各ビジョンタスクに適応されたモデルの基盤を構築するために、トレーニングデータセットの品質を確保することが最も重要です」とモンゴメリー氏は述べています。「さらに、各ビジョンタスクに適応されたモデルは、公平性、敵対的ケース、そして困難なケースについてテストされており、Azure Open AI ServiceやDALL-Eで使用しているのと同じコンテンツモデレーションサービスを実装しています。」

マイクロソフト フィレンツェ
画像クレジット: Microsoft

同社の言葉を信じるしかないだろう。一部の顧客はそう思っているようだ。モンゴメリー氏によると、RedditはFlorenceベースの新しいAPIを使ってプラットフォーム上の画像のキャプションを生成し、「代替テキスト」を作成することで、視覚に障がいのあるユーザーがスレッドをよりスムーズに理解できるようにするという。

「Florenceは画像1枚につき最大1万個のタグを生成できるため、Redditは画像内の物体をどれだけ正確に識別できるかをより細かく制御でき、より質の高いキャプションを生成できるようになります」とモンゴメリー氏は述べた。「Redditはこのキャプション機能を活用して、すべてのユーザーが投稿を検索する際のランキング向上にも貢献します。」

Microsoft は自社のさまざまなプラットフォーム、製品、サービスでも Florence を活用しています。

LinkedIn では、Reddit と同様に、Florence を利用したサービスがキャプションを生成し、画像の説明の代替テキストを編集およびサポートします。Microsoft Teamsでは、Florenceが動画セグメンテーション機能を推進しています。PowerPoint、Outlook、Wordでは、Florenceの画像キャプション機能を活用して代替テキストを自動生成しています。また、DesignerとOneDriveでは、Florenceのおかげで、画像のタグ付け、画像検索、背景生成の機能が向上しました。

モンゴメリ氏は、フローレンスが将来的には製造工程における欠陥検出や小売店でのセルフレジの実現など、顧客によってより幅広い用途で利用されるようになると予測しています。これらのユースケースはいずれもマルチモーダルなビジョンモデルを必要としませんが 、モンゴメリ氏はマルチモーダル性が価値ある要素を付加すると主張しています。

「Florenceは、ビジョンモデルを根本から再考したものです」とモンゴメリー氏は述べた。「画像とテキスト間の簡単かつ高品質な翻訳が実現すれば、可能性の世界は無限に広がります。お客様は、画像検索の大幅な向上を体験し、画像モデルやビジョンモデル、さらには言語や音声といった他のモデルを全く新しいタイプのアプリケーションに学習させ、さらに、独自にカスタマイズしたバージョンの品質を簡単に向上させることが可能になります。」