summarized by : kubo.takahiro
Xionghui Wang, Jian-Fang Hu, Jian-Huang Lai, Jianguo Zhang, Wei-Shi Zheng
部分的な動画から、何をしようとしているか検出する研究。フルの動画を入力としBi-LSTMを利用する(=行動終了の状態も把握している)Teacherに対し、部分動画を入力としLSTMを利用するStudentの潜在表現/予測が近くしなるよう学習を行う。
動作予測(Early Action Prediction)に対して、蒸留を用いて学習を行った
NTU RGB-D action , SYSU 3DHOI, UCF-101 setの3つのデータセットでSOTA