Spatio-Temporal Relation Modeling for Few-Shot Action Recognition

#121

summarized by : Shuhei M. Yoshida

Anirudh Thatipelli; Sanath Narayan; Salman Khan; Rao Muhammad Anwer; Fahad Shahbaz Khan; Bernard Ghanem

どんな論文か？

非常に少数のラベル付きデータから学習するfew-shot学習によって動画からの行動認識を学習するための手法を提案する。先行研究のTemporal-Relational CrossTransformer (TRX)は時間的関係性のモデル化に成功したこの分野のSOTAであるが、フレームレベルの特徴量のみを使うためパーツや空間的な関係性に着目する必要があるクラスの識別を苦手とする問題がある。

新規性

フレームをパッチに切ってパッチの関係性をモデル化するpatch-level enrichment、フレーム単位の時間的関係性をモデル化するframe-level enrichment、ネットワークの中間段階において特徴量の識別性を高めるquery-class similarity classifierにより、TRXを補強する。

結果

Kinetics, SSv2, HMDB51, UCF101を使ったfew-shot学習のベンチマークにおいて、従来手法を上回る精度を達成した。また、アテンションマップにより注視領域を可視化し、提案手法によりパーツや行動に関係する物体領域にきちんと注目できるようになったことを訂正的にも確認した。

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．