OpenAIは、最新の強力なAIモデル「GPT-4」を世界に発表しました。そして、その新機能を活用した最初の取り組みが、なんと視覚障害者の支援です。視覚障がい者や弱視の人が、目の見える人にスマートフォンに映っているものを説明してもらう「Be My Eyes」に、AIを活用した支援をいつでも提供する「バーチャルボランティア」が加わりました。
2015年の設立以来、私たちはBe My Eyesについて何度も記事を書いてきました。もちろん、コンピュータービジョンなどのツールの発展は、視覚障害者の日常生活をよりスムーズにするBe My Eyesの取り組みにおいて大きな役割を果たしてきました。しかし、このアプリ自体の機能には限界があり、中心となる機能は、ボランティアからの支援を常に受けられることでした。ボランティアは、スマートフォンのカメラ映像を通して、詳細な説明や指示を与えてくれます。
アプリの新バージョンは、GPT-4 のマルチモーダル機能を統合した初めてのアプリです。つまり、分かりやすくチャットするだけでなく、与えられた画像を検査して理解する機能も備えています。
ユーザーはアプリ経由で AI 搭載の仮想ボランティアに画像を送信することができ、仮想ボランティアはその画像に関するあらゆる質問に答え、さまざまなタスクについて瞬時に視覚的な支援を提供します。
例えば、ユーザーが冷蔵庫内の写真を送信すると、バーチャルボランティアは冷蔵庫の中身を正確に特定できるだけでなく、それらの材料を使って何が作れるかを推測・分析します。さらに、その材料を使ったレシピを複数提案し、作り方をステップバイステップで説明するガイドを送信することもできます。
しかし、説明に添えられた動画の方がより分かりやすい。動画では、Be My Eyesのユーザーであるルーシーさんが、このアプリが様々なことをどのように手助けしてくれるのかをライブで披露している。スクリーンリーダーの早口言葉に慣れていないと、一部のセリフを聞き逃してしまうかもしれないが、彼女はアプリを使ってドレスの見た目を説明したり、植物を特定したり、地図を読んだり、ラベルを翻訳したり、ジムの特定のトレッドミルまで案内したり、自動販売機のどのボタンを押せばいいのかを教えてくれたりしている。(下の動画をご覧ください。)
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日
ビー・マイ・アイズ バーチャルボランティア
これは、都市や商業インフラの多くが視覚障害者にとっていかに不便であるかを非常に簡潔に実証しています。また、GPT-4のマルチモーダルチャットが適切な状況下でどれほど有用であるかも示しています。
人間のボランティアが、Be My Eyes アプリのユーザーにとって今後も役立つことは間違いありません。彼らに代わるものはなく、彼らが必要とされるときの水準を引き上げるだけです (実際、AI の応答が十分でない場合は、彼らを即座に召喚することもできます)。
例えば、ジムではAIが「利用可能なマシンは人が乗っていないマシンです」と親切に提案してくれます。ありがとうございます!OpenAIの共同創設者サム・アルトマン氏が本日述べたように、その機能は一見した時よりも、しばらく使ってみて初めて実感できるものですが、この素晴らしいマシンの真価をあまり深く考えすぎないように注意が必要です。
Be My Eyes のチームは、OpenAI およびそのコミュニティと緊密に協力して、開発の継続に伴う機能の定義とガイドを行っています。
現在、この機能はBe My Eyesユーザーの「ごく一部」を対象にクローズドベータ版として提供されており、今後数週間で対象を拡大していく予定です。「数ヶ月以内にバーチャルボランティアを広くご利用いただけるようにしたいと考えています」とチームは述べています。「既存のボランティアサービスと同様に、このツールはBe My Eyesアプリをご利用のすべての視覚障碍者およびロービジョンコミュニティメンバーに無料でご利用いただけます。」
ChatGPTが企業のSaaSプラットフォームやその他の比較的平凡なアプリケーションに急速に導入されたことを考えると、この新しいツールがすぐに人々の役に立っているのを見るのは心強いものです。GPT-4の詳細については、こちらをご覧ください。
デヴィン・コールドウェイはシアトルを拠点とする作家兼写真家です。
彼の個人ウェブサイトは coldewey.cc です。
バイオを見る