#42
summarized by : Shunsuke Kogure
Actor-Transformers for Group Activity Recognition

どんな論文か?

複数の人物が写っている動画に対して、個人の行動だけではなく、グループ全体としての行動の認識に取り組んだ論文。Group Activity Recognitionのタスクで使用される2種類のデータセットを用いて従来研究との性能比較を行った。
placeholder

新規性

従来研究として、各人物の関係性を示すActor Relation Graphを用いたグラフ畳み込みニューラルネットなどが挙げられるが、Transformer Encoderを導入したモデルを提案。また動的な情報としてRGBとOptical Flow、静的な情報として姿勢情報を導入しており、early fusionとlate fusionによる認識精度の比較を行い、その利点についても説明している。

結果

Volleyball DatasetとCollective Datasetのどちらを使用した場合でもState-of-The-Artを達成。

その他(なぜ通ったか?等)

ablation studyが非常に充実していると感じた。