In Defense of Image Pre-training for Spatiotemporal Recognition

#174

summarized by : Hirokatsu Kataoka

Xianhang Li; Huiyu Wang; Chen Wei; Jieru Mei; Alan Yuille; Yuyin Zhou; Cihang Xie

どんな論文か？

画像認識の事前学習のパラメータを用いて、動画像認識（Space-time recognition）の追加学習を実施することで良好な性能が得られることを実証した論文である。時間と空間を分割する畳み込みであるSpatial-Temporal Separable（STS） Convolutionも同時に提案。

新規性

追加学習の際に使用するSTS Convを提案。画像認識の事前学習から特に空間的な表現を活かし、追加学習時に時間的な表現を獲得しやすくする。

結果

Kinetics-400やSomethingSomething-V2において、従来の畳み込みによるアーキテクチャSlowFastやCSN、X3Dなどと比較しても高い性能を実現している。

その他（なぜ通ったか？等）

GitHub: https://github.com/UCSC-VLAA/Image-Pretraining-for-Video

このページで利用されている画像は論文から引用しています．