#395
summarized by : Hirokatsu Kataoka
ActionBytes: Learning From Trimmed Videos to Localize Actions

どんな論文か?

Long-untrimmed video(LUV; 時間的に長いトリミングされていない動画)の時間推定を、Short-trimmed video(STV; 短いトリミングされた動画)から行う。大規模動画データセットから行動識別を学習し、知識転移により知らないカテゴリの時間的な配置を推定。
placeholder

新規性

短い動画像のみで長い動画像における時間的な配置が学習できるという点が新規性である。

結果

Thumos14, ActivityNet1.2, MultiThumos等で実験。ベースラインと比較して+7.1@Thumos14, +0.9@ActivityNet, +2.9@MultiThumosなど時間的なローカライズ精度が向上。何も重なり率0.5(物体検出のIoUと同じ要領)の時である。

その他(なぜ通ったか?等)