#234
summarized by : Shinnosuke Matsufusa
Real-Time Online Video Detection with Temporal Smoothing Transformers

どんな論文か?

現状のストリーミングビデオ認識モデルでは、映像の長期的なダイナミクスを考慮しようとすると、計算量が発散してしまい不便。そこで、時間平滑化カーネルを使用することで、フレーム間の計算の多くを再利用できるようにした。このアイデアに基づいて、TeSTraというモデルを提案。
placeholder

新規性

オンラインアクションの検出・予測において、Transformerアーキテクチャの計算効率向上のために、時間平滑化カーネルを導入した点。

結果

提案されたモデル TeSTra は、標準的なオンライン行動検出・行動予測データセットに対し、SOTAを達成。実行時間でも、大幅な短縮を達成。

その他(なぜ通ったか?等)

既存手法に対する優位性が顕著。とくに、長期記憶の幅を大きくしても計算量が一定に保たれる点が画期的。