#263
summarized by : QIUYUE
Improving Visual Grounding With Visual-Linguistic Verification and Iterative Reasoning

どんな論文か?

既存のVisual Groundingの手法が主に物体検出フレームワークをベースにしているため、Groundingに重要な画像領域をExploitする性能が制限される。ここで、検出を用いずにTransformerベースの手法を構築。特に、画像とテキストの相互のAttentionにより、画像中に重要な領域の情報が得やすい。さらに階層的なデコーダーによりTarget領域の最適化を行う。
placeholder

新規性

新たなOne-stage TransformerをベースとしたVisual Grounding手法を提案。複数のBenchmarkデータセットでSOTAを達成し、Transformer構造がVisual Groundingタスクにおける有効性を示せた。

結果

5つの既存のVisual GroundingデータセットにおいてSOTAな精度を達成。

その他(なぜ通ったか?等)

Engineering的な感じの手法で、構造上特にあまり新しいアイデアがないように感じた。各モジュールでやっていることは、Self-attention, Cross-attentionのみになるため、既存手法との差分もそこまで大きくなかった。ただし、手法の精度が高かった。