#175
summarized by : Kengo Ino
Graph-Based High-Order Relation Modeling for Long-Term Action Recognition

どんな論文か?

動画内のLong-term(数分単位) actionのGCNによる認識モデルを提案している論文。数秒単位のshort-term actionに比べ、long-term actionではbasic-relations(object, motion, sub-action)と呼ばれる基本的な要素/概念の関係性を捉えることが重要で、これらの組み合わせによってhigh-order relationが生じる
placeholder

新規性

従来手法ではhigh-order relationの抽出のみにフォーカスしており、局所的なbasic-relation間の関係性や、大域的な時間軸でのlong-term actionの意味合いには注目してこなかった。 そこで、本論文ではbasic-realtionをGCNを用いて明示的にモデルに組み込んだ。また、グラフのつなげ方に工夫を行うことで、局所/大域的な時間軸での意味合いの抽出を行なった

結果

テストを行った全ての動画データセット(Breakfast, Charades, MultiThumos)において、どの従来のlong-term action recognition手法よりも、sub-actionの認識において高いmAPを達成した(SOTA)。また、Ablationでは提案した2つのモジュールの効果を検討しており、両者が補完的に働いていることを確認している

その他(なぜ通ったか?等)

最高精度を達成しているが、データセットによっては差が僅少であること、また、その差がモジュール数のスタック数などのハイパーパラメータによって吸収されうる程度のものであったので、その点には注意が必要だと感じた。基礎的な概念に対してGCNでモデリングを行う、また、注目する時間軸の幅をグラフの隣接行列の制限やEmbeddingで表現している部分は汎用性が高い考え方・モデリング手法なのではないかと感じた。