- …
- …
#175
summarized by : Kengo Ino
どんな論文か?
動画内のLong-term(数分単位) actionのGCNによる認識モデルを提案している論文。数秒単位のshort-term actionに比べ、long-term actionではbasic-relations(object, motion, sub-action)と呼ばれる基本的な要素/概念の関係性を捉えることが重要で、これらの組み合わせによってhigh-order relationが生じる
新規性
従来手法ではhigh-order relationの抽出のみにフォーカスしており、局所的なbasic-relation間の関係性や、大域的な時間軸でのlong-term actionの意味合いには注目してこなかった。
そこで、本論文ではbasic-realtionをGCNを用いて明示的にモデルに組み込んだ。また、グラフのつなげ方に工夫を行うことで、局所/大域的な時間軸での意味合いの抽出を行なった
結果
テストを行った全ての動画データセット(Breakfast, Charades, MultiThumos)において、どの従来のlong-term action recognition手法よりも、sub-actionの認識において高いmAPを達成した(SOTA)。また、Ablationでは提案した2つのモジュールの効果を検討しており、両者が補完的に働いていることを確認している
その他(なぜ通ったか?等)
最高精度を達成しているが、データセットによっては差が僅少であること、また、その差がモジュール数のスタック数などのハイパーパラメータによって吸収されうる程度のものであったので、その点には注意が必要だと感じた。基礎的な概念に対してGCNでモデリングを行う、また、注目する時間軸の幅をグラフの隣接行列の制限やEmbeddingで表現している部分は汎用性が高い考え方・モデリング手法なのではないかと感じた。
- …
- …