Self-Supervised Video Transformer

summarized by : 志田　遥飛

Kanchana Ranasinghe; Muzammal Naseer; Salman Khan; Fahad Shahbaz Khan; Michael S. Ryoo

自己教師あり学習(ビデオバージョン)．ラベル付けされていないビデオデータセットを用いてマッチングさせる．(同じ景色を写している異なるビデオのマッチング)時間経過に対して不変性を獲得することを目的としている．(abstract)

異なる同一映像を処理するので，ネガティブマイニングやメモリバンクが不要な点．(学習の)収束を早めつつ高品質な時空間特徴を学習することができる点．(introduction)

下流タスクに動画行動認識を設定し4つの行動認識ベンチマーク(Kinetics-400, UCF-101, HMDB51, SSv2)で良好な精度を出している．(abstract)

https://github.com/kahnchana/svt

このページで利用されている画像は論文から引用しています．