#174
summarized by : Hirokatsu Kataoka
In Defense of Image Pre-training for Spatiotemporal Recognition

どんな論文か?

画像認識の事前学習のパラメータを用いて、動画像認識(Space-time recognition)の追加学習を実施することで良好な性能が得られることを実証した論文である。時間と空間を分割する畳み込みであるSpatial-Temporal Separable(STS) Convolutionも同時に提案。
placeholder

新規性

追加学習の際に使用するSTS Convを提案。画像認識の事前学習から特に空間的な表現を活かし、追加学習時に時間的な表現を獲得しやすくする。

結果

Kinetics-400やSomethingSomething-V2において、従来の畳み込みによるアーキテクチャSlowFastやCSN、X3Dなどと比較しても高い性能を実現している。

その他(なぜ通ったか?等)

GitHub: https://github.com/UCSC-VLAA/Image-Pretraining-for-Video