#216
summarized by : Akihiro FUJII
Temporal Query Networks for Fine-Grained Video Understanding

どんな論文か?

動画において、細かい動作を分類するFine-grained行動検知において、Transformerを使ったモデルTQNを提案。DETRのようにクエリを使って各動作を特定する戦略をとる。3つのFine-grained行動検知データセットにおいて、SotA性能を達成
placeholder

新規性

Transformerを使った機構を提案。DETRのようにクエリを使って各動作を特定する戦略をとる。DETRと異なる点としては、各クエリそれぞれ動作的な意味を含んでいるところ。また、全ビデオを使わず、一部のフレームのみを使お、学習済みConv3Dで取得した特徴量で学習を行うStochastically updated feature bankを提案。

結果

細かい動作を分類するFine-grained行動検知データセットであるGym99, Gym288, Diving48-V2でSotA性能を達成

その他(なぜ通ったか?等)

https://www.robots.ox.ac.uk/~vgg/research/tqn/