Dense Regression Network for Video Grounding

#706

summarized by : Yue Qiu

Runhao Zeng, Haoming Xu, Wenbing Huang, Peihao Chen, Mingkui Tan, Chuang Gan

どんな論文か？

Video Groundingタスクにビデオ内にQueryと一致するビデオクリップのStart-end Frameのようなスパースなアノテーション情報しかない．この論文でQueryが示すGround truthビデオクリップ内のFrameとStart frame間の距離を回帰し、従来よりDenseなSupervisionsを利用可能にした．MatchingスコアとBBOX IoUを計算．

新規性

①Video GroundingのSparse annotationsをDenseにする手法を提案．②One-stage手法で、従来のTwo-stage手法より処理スピードが速い．③Video クリップとQueryのマッチングスコアに加え，Temporal BBOXのIoUの計算も行い、PredictionsのEvaluationの質を向上した．

結果

①3つの従来データセット(Charades-STA, ActivityNet-Captions, TACoS)でSOTAを達成．②ActivityNet-CaptionsデータセットでSOTA accuracyを36.90%から42.49%まで更新．

その他（なぜ通ったか？等）

提案のDense Regressionモデルがシンプルかつ有効．コアなアイデアはGround truth領域内のFrameとStart frame間の距離を回帰，このアイデアはほかの手法でも適応しやすい．

このページで利用されている画像は論文から引用しています．