TDN: Temporal Difference Networks for Efficient Action Recognition

#285

summarized by : Kensho Hara

Limin Wang, Zhan Tong, Bin Ji, Gangshan Wu

どんな論文か？

動画の時間的なモデリングをちゃんとしつつも効率的に行動認識をするための手法を提案した研究．従来使われていたOptical Flowは計算が重いため，提案手法ではフレーム間の差分を効果的に利用している．加えて，前段で短期的，後段で長期的な時間情報を捉える構造を実装し，マルチスケールな時間情報の表現も実現．低いFLOPsながらもSOTAに匹敵する性能を達成．

新規性

短期的かつ長期的な時間情報を表現するためにフレーム間差分の計算を取り入れながら効率的に計算を行うネットワーク構造であるTemporal Difference Network (TDN) を提案．添付画像に示してあるのがTemporal Difference Module (TDM) の詳細．

結果

Something-Something v1 & v2でSOTAを超える性能を達成．Kinetics-400でSOTAに匹敵する性能を達成．TSMやTEINetなど，従来の効率的な行動認識手法と同程度のFLOPsの設定でより高い性能を達成．

その他（なぜ通ったか？等）

TDDやTSNなど代表的と言える行動認識手法を過去に提案しているLimin Wangが主著．ネットワーク構造が割と複雑でエンジニアリング的な印象がやや強い論文ものの，詳細なAblation Studyなど丁寧な実験と効率的かつ高精度な結果が強みの論文に見える． GitHub: https://github.com/MCG-NJU/TDN

このページで利用されている画像は論文から引用しています．