#289
summarized by : Ryota Hashiguchi
Unsupervised Pre-Training for Temporal Action Localization Tasks

どんな論文か?

TALのための教師なし事前学習の提案.分類問題においてはビデオから時間の異なるクリップを持ってきても出力自体は同じである.ローカライゼーション問題においては時間の異なるクリップに対して出力は変化するべきである.この2つの不一致を解決するために,Pseudo Action Localization (PAL)というプレテキストタスクを用意し,映像表現を学習する.
placeholder

新規性

TALのための事前学習(PAL)の提案.動画から2つの疑似行動領域を抽出し他の動画に貼り付け,表現をそれぞれ得る.その表現の対を正例とし,他の動画領域を負例とすることでTALの事前学習として対照学習を組み込んだ.

結果

ActivityNet v1.3に対するTAD, APGの結果では提案手法がベースラインMoCo-v2と比較してmAPで+3.1%, AUCで+2.8%の向上が確認された.また教師ありのTACを用いたものと比較してもmAPで+0.9%, AUCで+1.2%の向上が確認された.最近の教師あり学習法と比較しても同じくらいの精度を達成することができる.

その他(なぜ通ったか?等)

https://github.com/zhang-can/UP-TAL