#306
summarized by : Shuhei M. Yoshida
Improving Video Model Transfer With Dynamic Representation Learning

どんな論文か?

動画特徴表現学習に関する論文。静止画認識だけでは捉えられない動的な特徴表現を獲得することを目指す。
placeholder

新規性

動画からの特徴抽出器が(静止画の特徴抽出では捉えられない)動的な特徴をどれだけ捉えているか定量化するdynamic scoreとその測り方を提案。動的な特徴表現の学習をdynamic scoreの最大化と捉えると、敵対的学習の枠組みで定式化できることを示し、具体的な実装を提案した。

結果

Kinetics-400による事前学習をベースラインとし、dynamic scoreを測ったほか、下流タスクとして4つの標準的な動画分類タスクと2つのfew-shotタスクで評価。Dynamic scoreでは提案法がベースラインを大きく上回った。また、ほとんどの設定でベースラインを超える性能を発揮。

その他(なぜ通ったか?等)

動画認識において大きな課題であった「動的特徴を捉えきれない」という定性的な観察に対して、シンプルなアイデアでこれを定量化できるようにした点が画期的。さらにそれを表現学習のアルゴリズムにまで昇華した点が偉い。