#876
summarized by : kota yoshida
Improving Referring Expression Grounding With Cross-Modal Attention-Guided Erasing

どんな論文か?

参照表現のgroundingの目的は,画像内の特定のオブジェクトや人物を参照表現で検索することである.本研究では, 困難なトレーニングサンプルをオンラインで生成し,補完的なテキストと視覚の対応を発見するモデルを作成するために,テキストまたは視覚領域から最も支配的な情報を消去する新しいクロスモーダルattention誘導消去アプローチを設計する.
placeholder

新規性

(1)質問文の消去:視覚的情報を手がかりとして単語レベルのattentionの重みを、単語を高い注意重みで「未知の」トークンに置き換え (2)対象領域の消去:対象領域に対する空間的attentionが視覚的特徴と質問情報の両方から導出され,最も高い注目重みで空間的特徴を消去 (3)文脈オブジェクト消去:文脈オブジェクトに対するattentionの重みに基づいて,優勢な文脈領域を消去

結果

RefCOCO,RefCOCO++,RefCOCOgの3つの参照表現基盤データセットで最先端の性能を達成し,提案した方法の有効性を示した.

その他(なぜ通ったか?等)