#204
summarized by : GOTO Keita
Learning Spatio-Temporal Representation With Local and Global Diffusion

どんな論文か?

行動認識において、CNNの小さな窓では十分に特徴を抽出できないことがある。そこで、動画全体のグローバルな特徴を伝搬する経路を追加し、ローカルな特徴量と混合させるブロックをスタックしたモデルを提案。ローカルな特徴量抽出にはResidualブロックを、グローバルな特徴量抽出にはGlobal Average Poolingを用いる。最終的には両方の特徴量からカーネル法により分類を行う。
placeholder

新規性

動画全体のグローバルな特徴量をローカルな特徴量に内包させず、最後まで保持する。

結果

行動認識では、Kinetics-600においてSOTAを達成。3D Resnet・ImageNet pre-train・比較的長い動画を用いた場合精度が向上した。

その他(なぜ通ったか?等)

関連研究と比べシンプルだが強力なモデルを構築している。