- …
- …
#706
summarized by : Yue Qiu
どんな論文か?
Video Groundingタスクにビデオ内にQueryと一致するビデオクリップのStart-end Frameのようなスパースなアノテーション情報しかない.この論文でQueryが示すGround truthビデオクリップ内のFrameとStart frame間の距離を回帰し、従来よりDenseなSupervisionsを利用可能にした.MatchingスコアとBBOX IoUを計算.
新規性
①Video GroundingのSparse annotationsをDenseにする手法を提案.②One-stage手法で、従来のTwo-stage手法より処理スピードが速い.③Video クリップとQueryのマッチングスコアに加え,Temporal BBOXのIoUの計算も行い、PredictionsのEvaluationの質を向上した.
結果
①3つの従来データセット(Charades-STA, ActivityNet-Captions, TACoS)でSOTAを達成.②ActivityNet-CaptionsデータセットでSOTA accuracyを36.90%から42.49%まで更新.
その他(なぜ通ったか?等)
提案のDense Regressionモデルがシンプルかつ有効.コアなアイデアはGround truth領域内のFrameとStart frame間の距離を回帰,このアイデアはほかの手法でも適応しやすい.
- …
- …