Real-Time Online Video Detection with Temporal Smoothing Transformers

#234

summarized by : Shinnosuke Matsufusa

Yue Zhao; Philipp Krähenbühl

現状のストリーミングビデオ認識モデルでは、映像の長期的なダイナミクスを考慮しようとすると、計算量が発散してしまい不便。そこで、時間平滑化カーネルを使用することで、フレーム間の計算の多くを再利用できるようにした。このアイデアに基づいて、TeSTraというモデルを提案。

オンラインアクションの検出・予測において、Transformerアーキテクチャの計算効率向上のために、時間平滑化カーネルを導入した点。

提案されたモデル TeSTra は、標準的なオンライン行動検出・行動予測データセットに対し、SOTAを達成。実行時間でも、大幅な短縮を達成。

既存手法に対する優位性が顕著。とくに、長期記憶の幅を大きくしても計算量が一定に保たれる点が画期的。

このページで利用されている画像は論文から引用しています．