Self-Supervised Spatio-Temporal Representation Learning for Videos by Predicting Motion and Appearance Statistics

#614

summarized by : Keito Ishihara

Jiangliu Wang, Jianbo Jiao, Linchao Bao, Shengfeng He, Yunhui Liu, Wei Liu

映像の学習において必要なアノテーション付きデータ量を抑えるための自己教師あり学習における論文。時空間特徴のための表現学習において、2ストリームアプローチと人間の視覚システムを参考にしたあたらしい学習手法を提案。

ビデオ内の最大の動き、その方向、最も色の多様性があるところと最も多様性がないところ(≒背景)についての学習させることで時空間特徴を得ることを試みた。

提案手法でC3D networkを訓練し、主にUCF101とHMDB51で検証。Action Recognition、 Action Similarity LabelingなどでSoTA

このページで利用されている画像は論文から引用しています．