グーグルの研究者がビデオ通話で手話を認識して画面を切り替える技術を披露

#アナタノミカタ　

グーグルの研究者がビデオ通話で手話を認識して画面を切り替える技術を披露
AI.

私たちの多くが当たり前のように利用しているビデオ通話は、話している人をハイライトするために画面を切り替えることができる。話すことがコミュニケーションの手段であれば便利な機能だ。しかし、残念ながら手話のような無声音声は、これらのアルゴリズムが機能しない。この状況をGoogle（グーグル）の研究が変えるかもしれない。

同社はリアルタイムの手話検出エンジンをは研究中で、誰かが動き回るだけではなく、いつ手話をしているのか、いつ手話が終わったかを検知できる。人間がこの種のことを伝えるのはもちろん些細なことだが、画像と音声を映し出すことが目的のビデオ通話システムにとっては難しい。

ECCV（European Conference on Computer Vision）で発表されたグーグルの研究者の新しい論文では、効率的で非常に少ないレイテンシーで手話を検出する方法を示している。手話検出が機能したとしても、映像が遅延や劣化してしまうと実用的ではない。グーグルの研究者の目標は、軽量かつ信頼性の高いものであることを確認することだった。

手話検出システムはまず、PoseNet（ポーズネット）と呼ばれるモデルを使ってビデオを再生し、フレームごとに体と手足の位置を推定する。この基本的に棒形に単純化された視覚情報は、ドイツ手話を使用する人々のビデオからのポーズデータに基づいて訓練されたモデルで、ライブ映像で手話のように見える動きと比較する。

手話をしている人を自動検出する（画像クレジット：Google）

この単純なプロセスでは、相手がサインをしているかどうかを予測する精度はすでに80%で、さらに最適化を加えると91.5%の精度になる。ほとんどの通話の「アクティブスピーカー」検出は、相手が話しているのか咳をしているのかを伝えることができる程度であることを考えると、この数字はかなりの精度と言えるだろう。

既存の通話に新たに「人がサインしている」という信号を追加せずに動作させられるので、システムは巧妙なちょっとしたトリックを使っている。具体的には、人間の聴覚の範囲外であるが、コンピュータのオーディオシステムによって検出できる20kHzのトーンを生成しているのだ。この信号は、人がサインをしているときに毎回生成され、音声検出アルゴリズムに人が大声で話していると認識させられる。

既存のビデオ通話システムや、それを利用したアプリに組み込むことができない理由はないだろう。論文全文はGoogle Reserchのサイトで読める。