Action Segmentation With Joint Self-Supervised Temporal Domain Adaptation

#292

summarized by : Hiroki Ohashi

Min-Hung Chen, Baopu Li, Yingze Bao, Ghassan AlRegib, Zsolt Kira

どんな論文か？

Action segmentationにおけるクラス内分散（例えば、同じ行動クラスでも人が違えばやり方も違う）の問題に対応するため、ドメイン適合の問題を自己教師付き学習で解くことでよい表現を学習する手法を提案。

新規性

次の2つのpretext taskを提案：1)フレームレベルでのドメインの識別を行う（注：論文中ではドメインとは「人」を指している）タスク、2)ソース/ターゲットのビデオセグメントを時系列方向にランダムシャッフルしたシーケンスから、ドメインの列を予測するタスク（既存手法では単一ドメイン内でシャッフルするのに対し、本手法ではクロスドメインでシャッフル）。

結果

GTEA, 50Salads, Breakfastデータセットにおいてベースラインである教師有り学習の手法を大きく超える精度を達成（ただし、本研究はtransductive learningの設定であるため、ラベル付きではないもののアクセスできるデータ数がベースラインより多いことに注意）。65%のラベルのみを使用して同等程度の精度。既存の教師無し学習手法と比較してもSoTAを達成。

その他（なぜ通ったか？等）

SoTAを達成するとともに、提案手法の各ブロックの効果をablation studyにより分析、その他のdesign choiceもablationにより分析がなされているため。

このページで利用されている画像は論文から引用しています．