Action Recognition From Single Timestamp Supervision in Untrimmed Videos

#102

summarized by : Tsubura Kazuki

Davide Moltisanti, Sanja Fidler, Dima Damen

どんな論文か？

動画での行動認識は，学習中の教師ラベルと，各動作のタイムスタンプに依存する．教師ラベルは主観的なものであり，学習にコスト(時間的な？)が生じる．弱教師ラベルは，トリミングされていない動画の認識で高精度を実現するが，行動の数(種類)が増えると問題が生じる．トリミングされていない動画において，各行動インスタンスの周辺に配置された単一のタイムスタンプによって教師ラベルを作成することを提案．

新規性

タイムスタンプを，各動作の開始と終了時に指定するのではなく，動作の時間的中心に指定する．アクション境界をサンプリング分布に置き換え，学習中に，分類器の応答によって，分布の最適化していく．

結果

クラス「open fridge」のサンプリング分布を更新する例において，ラベル付けされたタイムスタンプとと対応する初期サンプリング分布は，アクションが発生する前に配置されている．最終的なサンプリング分布は，冷蔵庫を開けている被写体のフレームとマッチしている．

その他（なぜ通ったか？等）

動画認識の分野での貢献点が大きいと感じた．

このページで利用されている画像は論文から引用しています．