Multi-Modal Multi-Action Video Recognition

#53

summarized by : 日坂　幸次

Zhensheng Shi, Ju Liang, Qianqian Li, Haiyong Zheng, Zhaorui Gu, Junyu Dong, Bing Zheng

どんな論文か？

マルチアクションビデオ認識は、同時にまたは連続して発生する複数のアクションを認識する必要があるため、非常に困難です。マルチアクション関係をモデル化することは、複数のアクションを持つ動画を理解するために有益かつ重要であり、また動画内のアクションは通常、複数のモダリティで表現されます。

新規性

まず、マルチモーダルGCNを構築し、モダリティを考慮したマルチアクション関係を探索する。ノードの特徴として、3次元畳み込みニューラルネットワーク（CNN）で学習した時空間の特徴、音声やテキストの埋め込みを用いて、モダリティ特有のアクションを表現する。マルチモーダルなCNN-GCNモデルとマルチモーダルな特徴表現を組み合わせて、より優れた関係性のある行動予測を学習します。

結果

アブレーションの研究、マルチアクション関係の可視化、ブースト解析など、マルチモーダル・マルチアクション関係モデリングの有効性を示している。また、我々の手法は、大規模なマルチアクションM-MiTベンチマークにおいて、最先端の性能を達成した。我々のコードは https://github.com/zhenglab/multi-action-video で公開されています。

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．