Weakly-Supervised Action Localization by Generative Attention Modeling

#31

summarized by : Komiki Maruyama

Baifeng Shi, Qi Dai, Yadong Mu, Jingdong Wang

どんな論文か？

ビデオレベルのアクションラベルの弱教師で，Temporal Action Localization（TAL）をする研究．多くの弱教師TALモデルは，ビデオレベルのアクション分類に依存しているために特定のクラスに関連したバックグラウンドフレーム（コンテキストフレーム）がアクションフレームとして認識されてしまうという問題がある，それをConditional VAEを使用して解決する．

新規性

従来のアテンションベースの弱教師TALモデルでは，ビデオレベルのアクション分類を通してアテンションモジュールがアクションに関連したフレームを識別している．それに加えて提案モデルでは，Conditional VAEを導入し，アテンションモジュールが生成するアテンションを洗練することでアクションフレームとコンテキストフレームを混同するという問題を解決する．

結果

THUMOS14，ActivityNet1.2の両方で，既存の弱教師TAL手法よりも高い性能を達成．

その他（なぜ通ったか？等）

多くのablation studyによって，提案手法の有効性が検証されている．

このページで利用されている画像は論文から引用しています．