Video Playback Rate Perception for Self-Supervised Spatio-Temporal Representation Learning

#384

summarized by : Hiroki Ohashi

Yuan Yao, Chang Liu, Dezhao Luo, Yu Zhou, Qixiang Ye

どんな論文か？

ビデオデータにおける良い表現を学習するための自己教師付き学習手法を提案。元のビデオから一定割合で一旦フレームを間引いた（早送りした）ものを入力とし、それをエンコードしてどのぐらいの割合で間引いたかを識別するdiscriminatorと、エンコードされたものをデコードして間引いたフレーム（あるいは更に解像度を上げたもの）を復元するgeneratorから成り、これらを自己教師によって学習する。

新規性

SlowFast Netで提案されたような、同一の映像でも異なるフレームレートで見ると得られる情報が異なることに注目した学習手法を、自己教師付き学習の枠組みで利用するための新規の手法video Playback Rate Perception (PRP)を提案。

結果

UCF101及びHMDB51を用いたaction recognition及びvideo retrievalタスクにてSoTAを達成。

その他（なぜ通ったか？等）

映像データに対する自己教師付き学習のための新たなpretextタスクとそれを実現するためのアーキテクチャを提案し、その効果を実験的に示しているため。

このページで利用されている画像は論文から引用しています．