#614
summarized by : Keito Ishihara
Self-Supervised Spatio-Temporal Representation Learning for Videos by Predicting Motion and Appearance Statistics

どんな論文か?

映像の学習において必要なアノテーション付きデータ量を抑えるための自己教師あり学習における論文。時空間特徴のための表現学習において、2ストリームアプローチと人間の視覚システムを参考にしたあたらしい学習手法を提案。
placeholder

新規性

ビデオ内の最大の動き、その方向、最も色の多様性があるところと最も多様性がないところ(≒背景)についての学習させることで時空間特徴を得ることを試みた。

結果

提案手法でC3D networkを訓練し、主にUCF101とHMDB51で検証。Action Recognition、 Action Similarity LabelingなどでSoTA

その他(なぜ通ったか?等)