#121
summarized by : Shuhei M. Yoshida
Spatio-Temporal Relation Modeling for Few-Shot Action Recognition

どんな論文か?

非常に少数のラベル付きデータから学習するfew-shot学習によって動画からの行動認識を学習するための手法を提案する。 先行研究のTemporal-Relational CrossTransformer (TRX)は時間的関係性のモデル化に成功したこの分野のSOTAであるが、フレームレベルの特徴量のみを使うためパーツや空間的な関係性に着目する必要があるクラスの識別を苦手とする問題がある。
placeholder

新規性

フレームをパッチに切ってパッチの関係性をモデル化するpatch-level enrichment、フレーム単位の時間的関係性をモデル化するframe-level enrichment、ネットワークの中間段階において特徴量の識別性を高めるquery-class similarity classifierにより、TRXを補強する。

結果

Kinetics, SSv2, HMDB51, UCF101を使ったfew-shot学習のベンチマークにおいて、従来手法を上回る精度を達成した。また、アテンションマップにより注視領域を可視化し、提案手法によりパーツや行動に関係する物体領域にきちんと注目できるようになったことを訂正的にも確認した。

その他(なぜ通ったか?等)