#384
summarized by : Hiroki Ohashi
Video Playback Rate Perception for Self-Supervised Spatio-Temporal Representation Learning

どんな論文か?

ビデオデータにおける良い表現を学習するための自己教師付き学習手法を提案。元のビデオから一定割合で一旦フレームを間引いた(早送りした)ものを入力とし、それをエンコードしてどのぐらいの割合で間引いたかを識別するdiscriminatorと、エンコードされたものをデコードして間引いたフレーム(あるいは更に解像度を上げたもの)を復元するgeneratorから成り、これらを自己教師によって学習する。
placeholder

新規性

SlowFast Netで提案されたような、同一の映像でも異なるフレームレートで見ると得られる情報が異なることに注目した学習手法を、自己教師付き学習の枠組みで利用するための新規の手法video Playback Rate Perception (PRP)を提案。

結果

UCF101及びHMDB51を用いたaction recognition及びvideo retrievalタスクにてSoTAを達成。

その他(なぜ通ったか?等)

映像データに対する自己教師付き学習のための新たなpretextタスクとそれを実現するためのアーキテクチャを提案し、その効果を実験的に示しているため。