Shifting More Attention to Visual Backbone: Query-Modulated Refinement Networks for End-to-End Visual Grounding

#216

summarized by : QIUYUE

Jiabo Ye; Junfeng Tian; Ming Yan; Xiaoshan Yang; Xuwu Wang; Ji Zhang; Liang He; Xin Lin

どんな論文か？

Visual Groundingタスクでは画像領域と言語のアラインメントが鍵となる。既存手法では主にQuery-agnostic的なCNN /Transformerにより画像の特徴を得る。上記により抽出された画像特徴量はVisual Groundingタスクに不適切であると主張した。ここで、動的に言語情報により画像のQueryを調整可能なネットワークを提案した。

新規性

構造上シンプルで、End-to-endなVisual Groundingの手法を提案。さらに、既存手法でよく用いられている、Queryーagnostic的なVisual Backboneは、Visual Groundingタスクに適切ではない可能性があることを示した。今後他の大規模Vision and Language事前学習や、タスクごとの再学習などにおいて新たな知見を提供した。

結果

既存手法は、他のネットワークでVisual Backboneを学習する必要がある一方、提案のQuery-aware Dynamic Attention手法はEnd-to-endでVisual Groundingを行える。さらに、提案手法は４つのVisual GroundingベンチマークにおいてSOTAな精度を達成した。

その他（なぜ通ったか？等）

この論文はコアのところはFiLM（Feature -wise Linear Modulation)のTransformer版。この手法は高い精度を得られたから、Vision and Language Transformer構造はまだまだ構造上改善する余地がありそうに思った。

このページで利用されている画像は論文から引用しています．