Speech2Action: Cross-Modal Supervision for Action Recognition

#220

summarized by : Shun.ishizaka

Arsha Nagrani, Chen Sun, David Ross, Rahul Sukthankar, Cordelia Schmid, Andrew Zisserman

どんな論文か？

映画をinputとして，台詞と行動の関係性を調査した研究．BERTベースのSpeech2Action分類器を提案，分類器を使ってラベル付けされていない288Kの映画(188Mのスピーチセグメント)からweak action labelを抽出，このラベルを使って行動人sh気をすることで手動のラベルを使わずとも良い認識結果が得られた．

新規性

動画シーン(行動)と発話内容の対応関係に注目したことが新しい．まずスピーチと行動の対応関係を脚本(スクリプト有り)から学習させ，その後音声だけ(スクリプト不要)からweak labelを取得し，行動認識に利用している．

結果

HMDB51,AVAに提案手法を適用．video frameのみを利用する既存のself-supervisedおよびweakly supervisedな行動認識手法と比較して高精度．また，一部のラベルでは教師有り学習よりも高精度になっていた．特に既存手法が検出しにくい"follow" "count"のような，音声との相関が高い且つ曖昧または出現頻度の低い行動に対して強い．

その他（なぜ通ったか？等）

行動認識分野において，新規アプローチとしてこうしたCross-Modal系が流行ってきているのをなんとなく感じる．新しいアプローチをとって，手法はベタに行くというスマートな研究の印象を受けた．

このページで利用されている画像は論文から引用しています．