Action Quality Assessment with Temporal Parsing Transformer

#115

summarized by : smygw (宮川翔貴)

Yang Bai; Desen Zhou; Songyang Zhang; Jian Wang; Errui Ding; Yu Guan; Yang Long; Jingdong Wang

どんな論文か？

動画からスキルを定量評価するAQA(Action Quality Assessment)タスクにおいて、動画全体の特徴量をクエリに基づいて細かい行動単位での表現に分解するTPT (Temporal Parsing Transformer) を提案し、SOTAを達成した。

新規性

データセットに細かい行動単位でのアノテーション(フレーム範囲および行動のクラス)が付与されていなくても提案手法により細かい行動単位での対照学習が可能となる。また、クエリに基づいて特徴の分解をするために、Ranking LossとSparsity Lossという損失を提案しクエリを学習できるようにした。

結果

スキルの予測スコアの高い順に並び替えたときの相関係数および正解スコアと予測スコアの相対距離について従来手法と比較し、SOTAを達成した。学習したクエリのattentionに反応するシーンを可視化すると特定の細かい行動を捉えていることがわかり、提案手法の有効性を確認できた。

その他（なぜ通ったか？等）

論文では言及されていないが、action segmentationをモデル内部に含む"FineDiving: A Fine-grained Dataset for Procedure-aware Action Quality Assessment"(CVPR2022)と発想が近い。本研究は特徴レベルで分割する点で異なるが、両者を比較するのは興味深い。

このページで利用されている画像は論文から引用しています．