#220
summarized by : Shun.ishizaka
Speech2Action: Cross-Modal Supervision for Action Recognition

どんな論文か?

映画をinputとして,台詞と行動の関係性を調査した研究.BERTベースのSpeech2Action分類器を提案,分類器を使ってラベル付けされていない288Kの映画(188Mのスピーチセグメント)からweak action labelを抽出,このラベルを使って行動人sh気をすることで手動のラベルを使わずとも良い認識結果が得られた.
placeholder

新規性

動画シーン(行動)と発話内容の対応関係に注目したことが新しい.まずスピーチと行動の対応関係を脚本(スクリプト有り)から学習させ,その後音声だけ(スクリプト不要)からweak labelを取得し,行動認識に利用している.

結果

HMDB51,AVAに提案手法を適用.video frameのみを利用する既存のself-supervisedおよびweakly supervisedな行動認識手法と比較して高精度.また,一部のラベルでは教師有り学習よりも高精度になっていた.特に既存手法が検出しにくい"follow" "count"のような,音声との相関が高い且つ曖昧または出現頻度の低い行動に対して強い.

その他(なぜ通ったか?等)

行動認識分野において,新規アプローチとしてこうしたCross-Modal系が流行ってきているのをなんとなく感じる.新しいアプローチをとって,手法はベタに行くというスマートな研究の印象を受けた.