Coarse-Fine Networks for Temporal Activity Detection in Videos

#716

summarized by : Katsuyuki Nakamura

Kumara Kahatapitiya, Michael S. Ryoo

どんな論文か？

低時間解像度と高時間解像度の2ストリーム特徴による、高速・高精度な行動認識手法。

新規性

SlowFast（ICCV19）が固定的な時間サンプリングを行っていたのに対して、本研究は適応的に時間サンプリングしつつ、高時間解像度の特徴とE2Eでフュージョンする点がポイント。これをCoarse−Fine Networkと呼び、(1) 微分可能な時間サンプラー（Grid Pool）と、(2) 高時間解像度特徴とのフュージョン（Multi-stage fusion）モジュールで実現している。

結果

映像認識のデータセット（Charades、MultiTHUMOS）でSoTAを達成しつつ、高速化も実現（従来比75倍）。

その他（なぜ通ったか？等）

https://github.com/kkahatapitiya/Coarse-Fine-Networks

このページで利用されている画像は論文から引用しています．