FacebookとInstagramに投稿されたすべての写真は、画像分析AIによって評価され、キャプションが作成されます。このAIは大幅に進化しました。この改良されたシステムは、視覚障害のあるユーザーにとって大きなメリットとなり、将来的には写真の検索速度向上にも役立つでしょう。
代替テキストは、画像のメタデータに含まれるフィールドで、画像の内容を説明するものです。例えば、「野原に馬と一緒に立っている人」や「ボートに乗っている犬」などです。これにより、画像を見ることができない人でも画像の内容を理解することができます。
これらの説明文は、写真家や出版物によって手動で追加されることが多いのですが、ソーシャルメディアに写真をアップロードする人は、たとえ選択肢があったとしても、通常はわざわざ追加しません。そのため、比較的最近になって説明文を自動生成する機能が登場しました。この技術はここ数年でようやく十分に進歩したばかりですが、このことはソーシャルメディア全体のアクセシビリティ向上に非常に役立っています。
AvaはAI字幕機能をデスクトップとウェブアプリに拡張し、事業拡大のため450万ドルを調達
Facebookは2016年に自動代替テキストシステムを開発しました。これは機械学習の分野では遥か昔のことです。チームはその後も多くの改良を重ね、より高速で詳細なシステムへと進化させてきました。最新のアップデートでは、より詳細な説明をオンデマンドで生成するオプションが追加されました。
改良されたシステムは、開始当初と比べて10倍の数のアイテムと概念を認識し、現在では約1,200種類に達しています。また、説明文もより詳細なものになっています。以前は「建物のそばにいる2人」だったものが、今では「エッフェル塔のそばにいる2人の自撮り写真」になるかもしれません。(実際の説明文には「…かもしれない」という括りが付けられ、推測による誤記は避けられます。)
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日
しかし、必ずしも重要ではないにしても、それ以上の詳細があります。例えば、この画像では、AIは人物と物体の相対的な位置を記録しています。

明らかに、人々は太鼓の上にあり、帽子は人々の上にあります。要点を理解するために、これらのことは特に説明する必要もありません。しかし、「家と木々、そして山」と描写された絵を考えてみましょう。家は山の上にありますか、それとも山の前にありますか?木々は家の前、後ろ、それとも遠くの山の上にあるのでしょうか?
画像を適切に説明するには、たとえ少ない言葉で概要が伝わる場合でも、これらの詳細情報を記入する必要があります。目が見える人がより詳細な情報を確認したい場合は、画像を拡大表示したり、クリックして拡大表示したりできます。目が見えない人にも、この「画像の詳細な説明を生成」コマンドで同様のオプションが提供されます。(Androidアプリでは長押し、iOSではカスタムアクションで起動できます。)
新しい説明は、「雪をかぶった山の前に家と木々がある」といった感じでしょうか。その方がイメージが伝わりやすいと思いませんか?(念のため言っておきますが、これらの例は作り話ですが、期待通りの改善と言えるでしょう。)
新しい詳細な説明機能は、まずFacebookでテストされますが、改善された語彙はInstagramにも近日中に導入される予定です。説明は簡潔にまとめられているため、アプリが既に対応している他の言語に簡単に翻訳できますが、他の国では同時に展開されない可能性があります。
コンピュータービジョンって何ですか?
デヴィン・コールドウェイはシアトルを拠点とする作家兼写真家です。
彼の個人ウェブサイトは coldewey.cc です。
バイオを見る