iPhoneは視覚障碍者向けにボタンやUI機能を自動的に認識してラベル付けできるようになりました

Cemubo vgnpne 0

Vision

Appleは常に障がいのあるユーザー向けの機能開発に尽力しており、iOSのVoiceOverは、インターフェースのすべての要素に手動でラベルが付けられているという前提で、視覚障がいのある人にとって非常に役立つツールです。しかしAppleは先日、機械学習を用いてすべてのボタン、スライダー、タブを自動的に識別し、ラベルを付ける全く新しい機能を発表しました。

iOS 14で利用可能な画面認識は、使用中のアプリの何千枚もの画像で学習したコンピュータービジョンシステムで、ボタンの見た目やアイコンの意味などを学習します。このシステムは非常に柔軟性が高く、入力したデータに応じて、猫や顔の表情、あるいは今回のようにユーザーインターフェースのさまざまな部分を認識する専門家になることができます。

その結果、今ではどのアプリでもユーザーがこの機能を呼び出すと、ほんの一瞬後には画面上のすべての項目にラベルが付けられます。「すべて」というのは、まさにすべてです。スクリーンリーダーは、目が見えるユーザーが見て操作できるすべてのものを認識する必要があるのです。画像（iOSは以前から画像から一文の要約を作成できていました）から、一般的なアイコン（ホーム、戻る）や、どこにでも表示される「…」メニューのようなコンテキスト依存のアイコンまで、あらゆるものに対応しているからです。

目的は、手動によるラベル付けを時代遅れにすることではありません。開発者は、自分のアプリにラベルを付ける方法を最もよく知っていますが、アップデート、標準の変更、困難な状況 (ゲーム内のインターフェースなど) により、アクセシビリティが最大限に発揮されなくなる可能性があります。

Fableは、障害者を包括したデザインをサービスと同じくらいシンプルにすることを目指しています

AppleのiOSアクセシビリティエンジニアリングチームのChris Fleizach氏と、AI/MLアクセシビリティチームのJeff Bigham氏に、この非常に便利な新機能の誕生秘話についてお話を伺いました。（この機能については、来年発表予定の論文で解説されています。）

テッククランチイベント

サンフランシスコ | 2025年10月27日～29日

笑顔の女性2人の写真と、その写真を説明するナレーションが映っている携帯電話 — 画像クレジット: Apple

「画像の説明など、アクセシビリティの向上に繋がる領域を探りました」とフライザック氏は述べた。「iOS 13ではアイコンに自動でラベルを付けるようになりましたが、画面認識機能はそれをさらに進化させます。画面上のピクセルを見て、ユーザーが操作できるオブジェクトの階層を識別します。これらすべてがデバイス上でコンマ数秒以内に実行されます。」

このアイデア自体は新しいものではありません。ビッグハム氏は、数年前にピクセルレベルのデータを用いてUI要素を識別しようとしたスクリーンリーダー「Outspoken」について言及しました。しかし、このシステムは正確なマッチングを必要としていましたが、機械学習システムのファジーロジックとiPhoneに内蔵されたAIアクセラレータの速度により、Screen Recognitionははるかに柔軟で強力になっています。

これはほんの数年前には不可能だったことです。機械学習の現状とそれを実行するための専用ユニットがなかったため、このような処理はシステムに非常に大きな負担がかかり、時間がかかり、その間ずっとバッテリーが消耗していたはずです。

しかし、このようなシステムが実現可能と思われると、チームは専任のアクセシビリティスタッフとテストコミュニティの協力を得て、プロトタイプの作成に取り掛かりました。

「VoiceOverは長年、視覚アクセシビリティの旗手として君臨してきました。Screen Recognitionの開発過程を見れば、アクセシビリティ担当チーム、データ収集とアノテーション担当のパートナー、AI/ML、そしてもちろんデザインなど、チーム間の連携が基盤となっていたことがわかります。これは、機械学習開発が優れたユーザーエクスペリエンスの実現に向けて継続的に前進していくためでした」とビッグハム氏は述べています。

これは、人気アプリやゲームのスクリーンショットを何千枚も撮影し、それらを標準的なUI要素の1つとして手動でラベル付けすることで実現しました。このラベル付けされたデータは機械学習システムに入力され、システムはすぐに同じ要素を独自に選択できるようになりました。

言うほど単純ではありません。人間は特定のグラフィックやテキストの意図を理解する能力がかなり向上しており、抽象的なインターフェースや独創的なデザインのインターフェースでさえも操作できる場合が多いのです。しかし、機械学習モデルにとってはそこまで明確ではなく、チームは複雑なルールと階層構造を構築し、スクリーンリーダーによる解釈が意味を成すようにする必要がありました。

この新機能により、視覚障がいのあるユーザーにとって、数百万ものアプリのアクセシビリティが向上し、あるいはそもそもアクセシビリティが損なわれる可能性が高まります。この機能は、「アクセシビリティ」設定から「VoiceOver」を選択し、「VoiceOver認識」を選択するとオンにできます。ここで、画像、画面、テキストの認識のオン/オフを切り替えることができます。

画面認識をMacなどの他のプラットフォームに移植するのは容易ではないので、まだ期待しすぎないようにしましょう。原理は理にかなっています。ただし、モデル自体はモバイルアプリとは大きく異なるデスクトップアプリには一般化できません。おそらく他の誰かがその役割を引き受けるでしょう。AI駆動型のアクセシビリティ機能の可能性は、実現し始めたばかりです。

TechCrunch編集長のMatthew Panzarino氏は最近、AppleのChris Fleizach氏（iOSアクセシビリティエンジニアリングリーダー）とSarah Herrlinger氏（グローバルアクセシビリティポリシー＆イニシアチブのシニアディレクター）と対談しました。インタビューはこちらをご覧ください。

Posted by Cemubo