#522
summarized by : kubo.takahiro
D3TW: Discriminative Differentiable Dynamic Time Warping for Weakly Supervised Action Alignment and Segmentation

どんな論文か?

動画内の動作を検出する研究。フレームごとのアノテーションでなく、アクションの順序だけ与える(Weakly Supervised)ことで学習する。画像/動作間の距離(一致度)をnegative sampleを用い学習し(正しい動作順序よりランダムにした方が距離が遠くなる)、距離関数を用い微分可能なDTW(音声認識で、音声と語の当てはめに用いられる手法)で当てはめを最適化する。
placeholder

新規性

End-to-End、かつ弱教師で学習可能な識別モデルを提案した。

結果

Breakfast Action/Hollywood Extended、2つのデータセットでSOTA

その他(なぜ通ったか?等)