#706
summarized by : Yue Qiu
Dense Regression Network for Video Grounding

どんな論文か?

Video Groundingタスクにビデオ内にQueryと一致するビデオクリップのStart-end Frameのようなスパースなアノテーション情報しかない.この論文でQueryが示すGround truthビデオクリップ内のFrameとStart frame間の距離を回帰し、従来よりDenseなSupervisionsを利用可能にした.MatchingスコアとBBOX IoUを計算.
placeholder

新規性

①Video GroundingのSparse annotationsをDenseにする手法を提案.②One-stage手法で、従来のTwo-stage手法より処理スピードが速い.③Video クリップとQueryのマッチングスコアに加え,Temporal BBOXのIoUの計算も行い、PredictionsのEvaluationの質を向上した.

結果

①3つの従来データセット(Charades-STA, ActivityNet-Captions, TACoS)でSOTAを達成.②ActivityNet-CaptionsデータセットでSOTA accuracyを36.90%から42.49%まで更新.

その他(なぜ通ったか?等)

提案のDense Regressionモデルがシンプルかつ有効.コアなアイデアはGround truth領域内のFrameとStart frame間の距離を回帰,このアイデアはほかの手法でも適応しやすい.