D3TW: Discriminative Differentiable Dynamic Time Warping for Weakly Supervised Action Alignment and Segmentation

#522

summarized by : kubo.takahiro

Chien-Yi Chang, De-An Huang, Yanan Sui, Li Fei-Fei, Juan Carlos Niebles

どんな論文か？

動画内の動作を検出する研究。フレームごとのアノテーションでなく、アクションの順序だけ与える(Weakly Supervised)ことで学習する。画像/動作間の距離(一致度)をnegative sampleを用い学習し(正しい動作順序よりランダムにした方が距離が遠くなる)、距離関数を用い微分可能なDTW(音声認識で、音声と語の当てはめに用いられる手法)で当てはめを最適化する。

新規性

End-to-End、かつ弱教師で学習可能な識別モデルを提案した。

結果

Breakfast Action/Hollywood Extended、2つのデータセットでSOTA

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．