Learning Spatio-Temporal Representation With Local and Global Diffusion

#204

summarized by : GOTO Keita

Zhaofan Qiu, Ting Yao, Chong-Wah Ngo, Xinmei Tian, Tao Mei

どんな論文か？

行動認識において、CNNの小さな窓では十分に特徴を抽出できないことがある。そこで、動画全体のグローバルな特徴を伝搬する経路を追加し、ローカルな特徴量と混合させるブロックをスタックしたモデルを提案。ローカルな特徴量抽出にはResidualブロックを、グローバルな特徴量抽出にはGlobal Average Poolingを用いる。最終的には両方の特徴量からカーネル法により分類を行う。

新規性

動画全体のグローバルな特徴量をローカルな特徴量に内包させず、最後まで保持する。

結果

行動認識では、Kinetics-600においてSOTAを達成。3D Resnet・ImageNet pre-train・比較的長い動画を用いた場合精度が向上した。

その他（なぜ通ったか？等）

関連研究と比べシンプルだが強力なモデルを構築している。

このページで利用されている画像は論文から引用しています．