Temporal Query Networks for Fine-Grained Video Understanding

#216

summarized by : Akihiro FUJII

Chuhan Zhang, Ankush Gupta, Andrew Zisserman

どんな論文か？

動画において、細かい動作を分類するFine-grained行動検知において、Transformerを使ったモデルTQNを提案。DETRのようにクエリを使って各動作を特定する戦略をとる。3つのFine-grained行動検知データセットにおいて、SotA性能を達成

新規性

Transformerを使った機構を提案。DETRのようにクエリを使って各動作を特定する戦略をとる。DETRと異なる点としては、各クエリそれぞれ動作的な意味を含んでいるところ。また、全ビデオを使わず、一部のフレームのみを使お、学習済みConv3Dで取得した特徴量で学習を行うStochastically updated feature bankを提案。

結果

細かい動作を分類するFine-grained行動検知データセットであるGym99, Gym288, Diving48-V2でSotA性能を達成

その他（なぜ通ったか？等）

https://www.robots.ox.ac.uk/~vgg/research/tqn/

このページで利用されている画像は論文から引用しています．