Improving Visual Grounding With Visual-Linguistic Verification and Iterative Reasoning

#263

summarized by : QIUYUE

Li Yang; Yan Xu; Chunfeng Yuan; Wei Liu; Bing Li; Weiming Hu

どんな論文か？

既存のVisual Groundingの手法が主に物体検出フレームワークをベースにしているため、Groundingに重要な画像領域をExploitする性能が制限される。ここで、検出を用いずにTransformerベースの手法を構築。特に、画像とテキストの相互のAttentionにより、画像中に重要な領域の情報が得やすい。さらに階層的なデコーダーによりTarget領域の最適化を行う。

新規性

新たなOne-stage TransformerをベースとしたVisual Grounding手法を提案。複数のBenchmarkデータセットでSOTAを達成し、Transformer構造がVisual Groundingタスクにおける有効性を示せた。

結果

5つの既存のVisual GroundingデータセットにおいてSOTAな精度を達成。

その他（なぜ通ったか？等）

Engineering的な感じの手法で、構造上特にあまり新しいアイデアがないように感じた。各モジュールでやっていることは、Self-attention, Cross-attentionのみになるため、既存手法との差分もそこまで大きくなかった。ただし、手法の精度が高かった。

このページで利用されている画像は論文から引用しています．