#205
summarized by : Komiki Maruyama
SCT: Set Constrained Temporal Transformer for Set Supervised Action Segmentation

どんな論文か?

動画内で発生したアクションのリストのみを教師としてTemporal Action Segmentationを行う研究.End-to-Endで学習することができるネットワークを提案.
placeholder

新規性

提案手法の主なアイデアは,ビデオを細かな時間領域に分割することである.各領域は長さとアクションのラベルを持つ.教師としてアクションのリストが与えれるのでアクションのラベルについては直接学習することができる.長さについての学習には,フレームごとのアクション確率を予測したものと時間領域との一貫性に基づいた損失により学習する.

結果

Breakfast,Hollywood Extended,MPII 2 Cookingの3つのデータセットで評価.どのデータセットでも,既存手法よりも高い性能であることを示した.

その他(なぜ通ったか?等)

そもそもTemporal Action Segmentationについての研究が少ない.提案手法の5つの損失,2つの制約について詳細に分析されていた.