#716
summarized by : Katsuyuki Nakamura
Coarse-Fine Networks for Temporal Activity Detection in Videos

どんな論文か?

低時間解像度と高時間解像度の2ストリーム特徴による、高速・高精度な行動認識手法。
placeholder

新規性

SlowFast(ICCV19)が固定的な時間サンプリングを行っていたのに対して、本研究は適応的に時間サンプリングしつつ、高時間解像度の特徴とE2Eでフュージョンする点がポイント。これをCoarse−Fine Networkと呼び、(1) 微分可能な時間サンプラー(Grid Pool)と、(2) 高時間解像度特徴とのフュージョン(Multi-stage fusion)モジュールで実現している。

結果

映像認識のデータセット(Charades、MultiTHUMOS)でSoTAを達成しつつ、高速化も実現(従来比75倍)。

その他(なぜ通ったか?等)

https://github.com/kkahatapitiya/Coarse-Fine-Networks