#7
summarized by : 志田 遥飛
Self-Supervised Video Transformer

どんな論文か?

自己教師あり学習(ビデオバージョン).ラベル付けされていないビデオデータセットを用いてマッチングさせる.(同じ景色を写している異なるビデオのマッチング)時間経過に対して不変性を獲得することを目的としている.(abstract)
placeholder

新規性

異なる同一映像を処理するので,ネガティブマイニングやメモリバンクが不要な点.(学習の)収束を早めつつ高品質な時空間特徴を学習することができる点.(introduction)

結果

下流タスクに動画行動認識を設定し4つの行動認識ベンチマーク(Kinetics-400, UCF-101, HMDB51, SSv2)で良好な精度を出している.(abstract)

その他(なぜ通ったか?等)

https://github.com/kahnchana/svt