- …
- …
#216
summarized by : QIUYUE
どんな論文か?
Visual Groundingタスクでは画像領域と言語のアラインメントが鍵となる。既存手法では主にQuery-agnostic的なCNN /Transformerにより画像の特徴を得る。上記により抽出された画像特徴量はVisual Groundingタスクに不適切であると主張した。ここで、動的に言語情報により画像のQueryを調整可能なネットワークを提案した。
新規性
構造上シンプルで、End-to-endなVisual Groundingの手法を提案。さらに、既存手法でよく用いられている、Queryーagnostic的なVisual Backboneは、Visual Groundingタスクに適切ではない可能性があることを示した。今後他の大規模Vision and Language事前学習や、タスクごとの再学習などにおいて新たな知見を提供した。
結果
既存手法は、他のネットワークでVisual Backboneを学習する必要がある一方、提案のQuery-aware Dynamic Attention手法はEnd-to-endでVisual Groundingを行える。さらに、提案手法は4つのVisual GroundingベンチマークにおいてSOTAな精度を達成した。
その他(なぜ通ったか?等)
この論文はコアのところはFiLM(Feature -wise Linear Modulation)のTransformer版。この手法は高い精度を得られたから、Vision and Language Transformer構造はまだまだ構造上改善する余地がありそうに思った。
- …
- …