#488
summarized by : 堀 涼介
Multi-Grained Spatio-Temporal Features Perceived Network for Event-Based Lip-Reading

どんな論文か?

話者の唇の動きの視覚的情報をもとに単語を認識することを目的としたAutomatic lip-reading (ALR) において、イベントカメラという新しいタイプのカメラを導入する。従来のカメラと比較して、時間分解能が高く、冗長な視覚情報が少なく、低消費電力であるため、ALRにおいて技術的にも応用的にも優位性を持つ。本論文では最新のイベントベースの手法やビデオベースの手法を凌駕することが示された。
placeholder

新規性

ALRタスクにイベントカメラを初めて利用した研究。低レートのイベントフレームを入力として空間構造情報を認識するブランチと、高レートなイベントフレームを入力として時間的特徴を認識するブランチを持つフレームワーク (MSTP) を提案。また、異なるブランチで学習した時空間特徴を統合するモジュール(MFM)も提案。分野で初となるイベントベースのALR用データセット(DVS-Lip)も公開した。

結果

DVS-Lipデータセットに対して行った広範な実験により、MSTPは一般的な単語と視覚的に類似した単語の両方について、既存のイベントベース行動認識モデルおよび最新のビデオベースのALRモデルを上回る性能を示した。また、MFMは視覚的に類似した単語の認識においてより大きな影響を与えるため、より細かい時空間特徴を認識することができるということが示された。

その他(なぜ通ったか?等)