- …
- …
#263
summarized by : QIUYUE
どんな論文か?
既存のVisual Groundingの手法が主に物体検出フレームワークをベースにしているため、Groundingに重要な画像領域をExploitする性能が制限される。ここで、検出を用いずにTransformerベースの手法を構築。特に、画像とテキストの相互のAttentionにより、画像中に重要な領域の情報が得やすい。さらに階層的なデコーダーによりTarget領域の最適化を行う。
新規性
新たなOne-stage TransformerをベースとしたVisual Grounding手法を提案。複数のBenchmarkデータセットでSOTAを達成し、Transformer構造がVisual Groundingタスクにおける有効性を示せた。
結果
5つの既存のVisual GroundingデータセットにおいてSOTAな精度を達成。
その他(なぜ通ったか?等)
Engineering的な感じの手法で、構造上特にあまり新しいアイデアがないように感じた。各モジュールでやっていることは、Self-attention, Cross-attentionのみになるため、既存手法との差分もそこまで大きくなかった。ただし、手法の精度が高かった。
- …
- …