#757
summarized by : 金城 忍
Improving Weakly Supervised Visual Grounding by Contrastive Knowledge Distillation

どんな論文か?

文章全体の一部のラベルとなる文と物体検知から出力された領域毎の特徴量との類似度を取る一方で、その文の一部の単語との類似度を取り、それぞれで対象学習することで、画像の中の文章が示す領域を抽出する手法の提案

新規性

領域検出にスコア関数を使用することで推論時に検出器を使用する必要が無いという点で新規

結果

Faster R-CNN+事前学習済みのVGG16、ResNet-101またはInception-ResNet-V2をベースにFlicker30K Entities及びReferItGameでの評価で、提案手法が既存手法より良い結果を達成する一方で、視覚的評価では結果において良い局在性が示された

その他(なぜ通ったか?等)