#293
summarized by : Shunsuke NAKATSUKA
Collaborative Spatiotemporal Feature Learning for Video Action Recognition

どんな論文か?

Spatiotemporal featureを上手く抽出するようなConvolution機構を提案.Conv2Dでは空間情報と時間情報を別々に学習していた,Conv3Dはパラメータ数が多くて学習が難しかった.
placeholder

新規性

動画に対して,[3x3x1, 3x1x3, 1x3x3] のフィルタでConvolutionする.このときすべてのパラメータを共有することでパラメータ数を削減.また,3つのConvolutionの出力を重み付き和で足し合わせる.このときの重みを学習パラメータとすることで,時空間の貢献度を定量化できる.

結果

Moments in Time Challenge 2018において1位を獲得.また,パラメータ数もConv2Dとは変わらない状態で,Conv3Dとほぼ同等の受容野(時空間的)の広さを持つ.

その他(なぜ通ったか?等)