#706
summarized by : 金城 忍
Interventional Video Grounding With Dual Contrastive Learning

どんな論文か?

クエリーの特徴量に基づいてフレームの開始、終了の位置を決定し、その範囲でのフレーム毎の特徴量及び、クエリーと対象となる一連のフレームとの類似度を高める一方で、情報抽出もでるを使用して、クエリーから動詞を中心とした語彙セットを構築し、交絡因子となる要因の特徴量を排除することで、映像のローカリゼーションの頑健性を高める提案

新規性

クエリーに基づく映像のローカリゼーションに対して、因果推論の理論を取り入れたという点で新規

結果

TACoS、Charades-STA及びActivityNet Captionの評価で、提案手法が既存手法より良い結果を達成した (但し、TACoS IoU=0.7、ActivityNet Caption IoU=0.5を除く)

その他(なぜ通ったか?等)