#400
summarized by : Kazuki Omi
End-to-End Semi-Supervised Learning for Video Action Detection

どんな論文か?

Spatio-temporal action localizationタスクの半教師付き学習の提案をしている. 著者曰く,半教師の設定においてend-to-endでこのタスクに焦点を当てた最初の研究であるとされている.
placeholder

新規性

オーギュメンテーション(左右反転)したものと元動画の検出結果が一致するようにspatio-temporal consistency loss(左右反転したものと元動画のローカライゼーション結果のl2損失)を導入した.さらに検出結果が時間的に一貫性があること(フレームごとに検出結果がばらばらでない)を要求するためにアテンションマスクMvarとMgradを用いている.

結果

UCF101-24やJHMDB-21といったデータセットで既存の半教師付き学習モデルよりも良い性能であることを示した.

その他(なぜ通ったか?等)

https://github.com/AKASH2907/End-toEnd-Semi-Supervised-Learning-for-VideoAction-Detection