- …
- …
#765
summarized by : cfiken
どんな論文か?
ビデオ内のいくつかの one-action を含む complex-action を認識するために、時間方向の multi scale convolution である Timeception を提案した。
既存手法は 3D convolution を使用しており長い時間方向には多くの計算コストが必要だったが、Timeception は既存手法の8倍 (1028 steps) のモデリングが可能に。
新規性
1024 timestep もの長い系列を、Pooling などで起こる短いスパンの情報損失なしにモデリングを行う手法は初。
結果
Charades, Breakfast Actions, MultiTHUMOS といった、複雑な action を含む長いレンジの認識タスクで SOTA を更新。
その他(なぜ通ったか?等)
- …
- …