#216
summarized by : QIUYUE
Shifting More Attention to Visual Backbone: Query-Modulated Refinement Networks for End-to-End Visual Grounding

どんな論文か?

Visual Groundingタスクでは画像領域と言語のアラインメントが鍵となる。既存手法では主にQuery-agnostic的なCNN /Transformerにより画像の特徴を得る。上記により抽出された画像特徴量はVisual Groundingタスクに不適切であると主張した。ここで、動的に言語情報により画像のQueryを調整可能なネットワークを提案した。
placeholder

新規性

構造上シンプルで、End-to-endなVisual Groundingの手法を提案。さらに、既存手法でよく用いられている、Queryーagnostic的なVisual Backboneは、Visual Groundingタスクに適切ではない可能性があることを示した。今後他の大規模Vision and Language事前学習や、タスクごとの再学習などにおいて新たな知見を提供した。

結果

既存手法は、他のネットワークでVisual Backboneを学習する必要がある一方、提案のQuery-aware Dynamic Attention手法はEnd-to-endでVisual Groundingを行える。さらに、提案手法は4つのVisual GroundingベンチマークにおいてSOTAな精度を達成した。

その他(なぜ通ったか?等)

この論文はコアのところはFiLM(Feature -wise Linear Modulation)のTransformer版。この手法は高い精度を得られたから、Vision and Language Transformer構造はまだまだ構造上改善する余地がありそうに思った。