Actor-Transformers for Group Activity Recognition

#42

summarized by : Shunsuke Kogure

Kirill Gavrilyuk, Ryan Sanford, Mehrsan Javan, Cees G. M. Snoek

どんな論文か？

複数の人物が写っている動画に対して、個人の行動だけではなく、グループ全体としての行動の認識に取り組んだ論文。Group Activity Recognitionのタスクで使用される2種類のデータセットを用いて従来研究との性能比較を行った。

新規性

従来研究として、各人物の関係性を示すActor Relation Graphを用いたグラフ畳み込みニューラルネットなどが挙げられるが、Transformer Encoderを導入したモデルを提案。また動的な情報としてRGBとOptical Flow、静的な情報として姿勢情報を導入しており、early fusionとlate fusionによる認識精度の比較を行い、その利点についても説明している。

結果

Volleyball DatasetとCollective Datasetのどちらを使用した場合でもState-of-The-Artを達成。

その他（なぜ通ったか？等）

ablation studyが非常に充実していると感じた。

このページで利用されている画像は論文から引用しています．