#180
summarized by : Yue Qiu
Large Scale Holistic Video Understanding

どんな論文か?

従来のRich annotationのVideo認識データセットがHuman actionやSports認識などに限っている.この問題に対応する新たなRich annotationビデオ認識用データセットHolistic Video Understanding Dataset (HVU)を提案.提案データセットを用いてより複雑なMulti-task multi-labelビデオ認識が可能になった.
placeholder

新規性

①新しい大規模Rich annotationビデオ認識データセットHVUを提案:572k videos; 9 M annotations; 3,457 labels. ②新しい手法Holistic Appearance and Temporal Network (HATNet)を提案:Appearance とTemporal cuesを含めた2次元特徴と3次元特徴の中間表現を結合.

結果

①提案のデータセットHVUで事前学習を行う場合に、Kineticsで事前学習済みのモデルより精度を向上した;②提案のモデルHATNetが複数の既存データセット:HMDB51, UCF101, KineticsなどにおいてSOTAを達成.

その他(なぜ通ったか?等)

大規模Multi-task multi-labelデータセットを提案;深いレベルのビデオ認識に一歩近づけた.