Collaborative Spatiotemporal Feature Learning for Video Action Recognition

#293

summarized by : Shunsuke NAKATSUKA

Chao Li, Qiaoyong Zhong, Di Xie, Shiliang Pu

どんな論文か？

Spatiotemporal featureを上手く抽出するようなConvolution機構を提案．Conv2Dでは空間情報と時間情報を別々に学習していた，Conv3Dはパラメータ数が多くて学習が難しかった．

新規性

動画に対して，[3x3x1, 3x1x3, 1x3x3] のフィルタでConvolutionする．このときすべてのパラメータを共有することでパラメータ数を削減．また，3つのConvolutionの出力を重み付き和で足し合わせる．このときの重みを学習パラメータとすることで，時空間の貢献度を定量化できる．

結果

Moments in Time Challenge 2018において1位を獲得．また，パラメータ数もConv2Dとは変わらない状態で，Conv3Dとほぼ同等の受容野（時空間的）の広さを持つ．

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．