End-to-End Semi-Supervised Learning for Video Action Detection

#400

summarized by : Kazuki Omi

Akash Kumar; Yogesh Singh Rawat

どんな論文か？

Spatio-temporal action localizationタスクの半教師付き学習の提案をしている．著者曰く，半教師の設定においてend-to-endでこのタスクに焦点を当てた最初の研究であるとされている．

新規性

オーギュメンテーション（左右反転）したものと元動画の検出結果が一致するようにspatio-temporal consistency loss（左右反転したものと元動画のローカライゼーション結果のl2損失）を導入した．さらに検出結果が時間的に一貫性があること（フレームごとに検出結果がばらばらでない）を要求するためにアテンションマスクMvarとMgradを用いている．

結果

UCF101-24やJHMDB-21といったデータセットで既存の半教師付き学習モデルよりも良い性能であることを示した．

その他（なぜ通ったか？等）

https://github.com/AKASH2907/End-toEnd-Semi-Supervised-Learning-for-VideoAction-Detection

このページで利用されている画像は論文から引用しています．