TEA: Temporal Excitation and Aggregation for Action Recognition

#415

summarized by : Anonymous

Yan Li, Bin Ji, Xintian Shi, Jianguo Zhang, Bin Kang, Limin Wang

どんな論文か？

動画における行動認識において重要である時間関係のモデル化を行うためにTemporal Excitation and Aggregation(TEA)ブロックを提案．TEMは特徴量から動き情報を抽出し，動き情報に重要なチャネルを強化する運動励起（ME）モジュールと，短期的な時間関係と長期的な時間関係を集約する複数の時間的集約（MTA）モジュールから成る．

新規性

一般的なモデルはオプティカルフローから動き情報を得ているが，TEMはMEモジュール内で入力特徴量から動き情報を取得し，動きに重要なチャネルを強化するような構造である．MTAモジュールでは入力特徴をチャネル次元に4つに分割し，カスケード型の構造になっている．

結果

Something-Something V1，Kinetic400，HMDB51，UCF101のデータセットで実験．Something-Something V1においては精度が向上した．

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．