Googleの研究により、ビデオ通話で手話による「アクティブスピーカー」の切り替えが可能に

Googleの研究により、ビデオ通話で手話による「アクティブスピーカー」の切り替えが可能に
兄と妹がモダンなアパートに座ってオンラインで手話を学んでいます。
画像クレジット: Imgorthand / Getty Images

ビデオ通話で多くの人が当たり前だと思っている機能の一つに、誰が話しているかを強調表示するためにフィードを切り替える機能があります。話すことがコミュニケーションの手段であれば、これは素晴らしいことです。残念ながら、手話のような無言の発話ではこうしたアルゴリズムは作動しませんが、Googleの今回の研究がそれを変えるかもしれません。

これはリアルタイムの手話検出エンジンで、誰かが手話をしている(ただ動いているだけではない)か、そして手話が終わったかを判別できます。もちろん、人間にとってはこのようなことを判断するのは簡単ですが、ピクセルをプッシュするだけのビデオ通話システムでは難しいのです。

Googleの研究者による新しい論文がECCVで(もちろんバーチャルで)発表され、非常に効率的かつ遅延を最小限に抑えて手話認識を実現する方法を示しています。手話検出が機能しても、動画の遅延や画質の低下が生じてしまうようでは意味がありません。そこで、研究者たちは、モデルが軽量かつ信頼性の高いものとなるよう努めました。

この手追跡アルゴリズムは手話認識につながる可能性がある

このシステムはまず、PoseNetと呼ばれるモデルに動画を通し、各フレームにおける体と手足の位置を推定します。この簡略化された視覚情報(基本的には棒人間)は、ドイツ手話を使用する人々の動画のポーズデータでトレーニングされたモデルに送信され、ライブ画像と推定される手話の姿を比較します。

署名している人物の自動検出を示す画像。
画像クレジット: Google

このシンプルなプロセスは、既に人が手話で話しているかどうかを予測する精度を80%に高めており、さらに最適化を加えると91.5%の精度に達します。ほとんどの通話における「アクティブスピーカー」検出は、人が話しているのか咳をしているのかを判断するのが難点であることを考えると、これらの数値はかなり立派です。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

既存の通話に「手話通訳中」という新たな信号を追加することなく動作させるために、このシステムは巧妙なトリックを駆使しています。仮想音源を用いて20kHzのトーンを生成します。これは人間の可聴範囲外ですが、コンピューターのオーディオシステムでは認識可能です。この信号は、人が手話通訳をしているときに常に生成され、音声検出アルゴリズムは、その人が声を出して話していると認識します。

現時点ではデモ版で、こちらからお試しいただけますが、既存のビデオ通話システムに直接組み込んだり、それらに便乗するアプリとして利用したりすることもできそうです。論文全文はこちらでご覧いただけます。

iOS 14では、聴覚障碍のあるユーザーが重要な音にアラートを設定できるなど、他の巧妙なアクセシビリティ機能も追加されました。

トピック

デヴィン・コールドウェイはシアトルを拠点とする作家兼写真家です。

彼の個人ウェブサイトは coldewey.cc です。

バイオを見る