#381
summarized by : Kensho Hara
Video Modeling With Correlation Networks

どんな論文か?

行動認識において重要なモーション情報を捉えるための新たな手法を提案.従来はOptical Flowで明示的に扱ったり,3D Convで暗黙的に表現したりしていた.本研究ではそれらとは異なり,ネットワーク中の各層にフレーム間の相関を計算する層を追加することでモーションを捉える手法を提案.
placeholder

新規性

DilationやGroupingにより効率的に計算可能な学習可能な相関計算をする層を提案.

結果

Optical Flowを使うことなくKinetics, Something-Something, Diving48, Sports-1MでSOTA性能を達成.

その他(なぜ通ったか?等)

Flow利用や単なる3D Conv以外でのモーション表現は色々出てきているけど,その中でまた新しいものが出てきた.