Interventional Video Grounding With Dual Contrastive Learning

#706

summarized by : 金城忍

Guoshun Nan, Rui Qiao, Yao Xiao, Jun Liu, Sicong Leng, Hao Zhang, Wei Lu

どんな論文か？

クエリーの特徴量に基づいてフレームの開始、終了の位置を決定し、その範囲でのフレーム毎の特徴量及び、クエリーと対象となる一連のフレームとの類似度を高める一方で、情報抽出もでるを使用して、クエリーから動詞を中心とした語彙セットを構築し、交絡因子となる要因の特徴量を排除することで、映像のローカリゼーションの頑健性を高める提案

新規性

クエリーに基づく映像のローカリゼーションに対して、因果推論の理論を取り入れたという点で新規

結果

TACoS、Charades-STA及びActivityNet Captionの評価で、提案手法が既存手法より良い結果を達成した (但し、TACoS IoU=0.7、ActivityNet Caption IoU=0.5を除く)

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．