#92
summarized by : 綱島秀樹
Removing the Background by Adding the Background: Towards Background Robust Self-Supervised Video Representation Learning

どんな論文か?

動画のランダムな1フレームを別のフレームに被せて背景を破壊して、動きだけを残すBackground Erasing (BE) を提案し、動画の様々なタスクの性能を大幅に上げた。 どのタスクにも簡単に導入できるのが強み。
placeholder

新規性

簡単にどのタスクにも適用できる背景バイアスを取り除く手法を提案した点

結果

行動認識、Video Retrievalにおいて大幅に精度を向上させた。 Class Activation Map (CAM) を用いた注視領域の可視化でも動きの部分のヒートマップの値が高くなっている。

その他(なぜ通ったか?等)

非常にシンプルな手法ながら、動画を扱うタスクにおける問題点の動きに着目するということを成し遂げて、性能向上にも大幅に寄与しているため採択されたと考えられる