Graph-Based High-Order Relation Modeling for Long-Term Action Recognition

#175

summarized by : Kengo Ino

Jiaming Zhou, Kun-Yu Lin, Haoxin Li, Wei-Shi Zheng

どんな論文か？

動画内のLong-term（数分単位） actionのGCNによる認識モデルを提案している論文。数秒単位のshort-term actionに比べ、long-term actionではbasic-relations(object, motion, sub-action)と呼ばれる基本的な要素/概念の関係性を捉えることが重要で、これらの組み合わせによってhigh-order relationが生じる

新規性

従来手法ではhigh-order relationの抽出のみにフォーカスしており、局所的なbasic-relation間の関係性や、大域的な時間軸でのlong-term actionの意味合いには注目してこなかった。そこで、本論文ではbasic-realtionをGCNを用いて明示的にモデルに組み込んだ。また、グラフのつなげ方に工夫を行うことで、局所/大域的な時間軸での意味合いの抽出を行なった

結果

テストを行った全ての動画データセット（Breakfast, Charades, MultiThumos）において、どの従来のlong-term action recognition手法よりも、sub-actionの認識において高いmAPを達成した（SOTA）。また、Ablationでは提案した2つのモジュールの効果を検討しており、両者が補完的に働いていることを確認している

その他（なぜ通ったか？等）

最高精度を達成しているが、データセットによっては差が僅少であること、また、その差がモジュール数のスタック数などのハイパーパラメータによって吸収されうる程度のものであったので、その点には注意が必要だと感じた。基礎的な概念に対してGCNでモデリングを行う、また、注目する時間軸の幅をグラフの隣接行列の制限やEmbeddingで表現している部分は汎用性が高い考え方・モデリング手法なのではないかと感じた。

このページで利用されている画像は論文から引用しています．