Temporal Pyramid Network for Action Recognition

#336

summarized by : Anonymous

Ceyuan Yang, Yinghao Xu, Jianping Shi, Bo Dai, Bolei Zhou

行動認識のタスクにおいて視覚的テンポ（動画の早さ）をモデル化するTemporal Pyramid Network (TPN)を提案．TPNを実装するにあたり，各フレームの特徴をモデル化する空間意味変調と時間テンポ変調と，それらの特徴を集約のための複数種類の情報フローを提案している．

既存研究では入力段階でビデオを複数のフレームレートでサンプリングすることで視覚的テンポをモデル化している．提案手法ではネットワーク内部に形成された特徴階層を利用して複数の視覚的テンポをモデル化する．

Kinetics-400，Something-Something V1 & V2，Epic-Kitchenで実験．既存手法と比べて精度（Top-1 accuracy）が向上．

このページで利用されている画像は論文から引用しています．