Learning From Untrimmed Videos: Self-Supervised Video Representation Learning With Hierarchical Consistency

#484

summarized by : 志田遥飛

Zhiwu Qing; Shiwei Zhang; Ziyuan Huang; Yi Xu; Xiang Wang; Mingqian Tang; Changxin Gao; Rong Jin; Nong Sang

どんな論文か？

本論文では，ラベルなしビデオからの表現学習におけるトリミングされたデータを学習に使用する際の「データ収集コスト」「ヒューマンバイアス」の問題点に着目し，トリミングされていないビデオを活用することを提案した．また，トリミングされてないデータから強力で汎化された表現を獲得することができるSSL手法 HiCoを提案．提案手法の検証のために複数の下流タスクに対する広範囲な実験を実施し，有効性を検証した．

新規性

既存の対比学習にトリミングされていないビデオデータを用いて学習を行うと，性能が悪化するという問題が有りトリミングされていないビデオデータは使用されていなかった．(原因は時間的永続性に関する仮説によるもの)本手法では，トリミングされていないデータに存在する2つの階層的な一貫性を学習する手法を提案し，対比学習におけるトリミングされていないデータを用いた場合のデメリットを解消した．

結果

検証のために複数の下流タスクに対する広範囲な実験を実施した．中でもHMDB51，UCF101における行動認識タスクでの評価において，既存の手法に対しそれぞれ12.8%，12.5%の差をつけることに成功．有効性を示した．

その他（なぜ通ったか？等）

【添付した画像】 UCV101，HMDB51を用いて既存手法との性能比較結果をまとめたもの．

このページで利用されている画像は論文から引用しています．