#222
summarized by : QIUYUE
Multi-Modal Dynamic Graph Transformer for Visual Grounding

どんな論文か?

既存のVisual Grounding(VG)手法は1ステップで行うため、候補領域の質が結果に大きな影響を及ぼす。ここで1ステップではなく、段階的にGrounding領域を最適していく手法を提案。領域をノードとし、領域間の関係をエッジとする。提案手法ではMulti-modalなグラフTransformerを利用して、ノードとエッジをグラフにより段階的に関係性学習を行う。
placeholder

新規性

Visual Groundingタスクを1ステップではなく、段階的に最適化していけるように設計した。また、上記のための新たなMulti-modal Graph Transformerを提案した。さらに、提案のモデルは既存手法へ適応することが可能。

結果

48のInitial BBOX領域から、提案手法がFlickr30k EntitiesとRefCOCOデータセットでSOTAな精度とIoUを達成。また、提案手法を既存手法に導入することで、既存手法の性能向上も実現した。

その他(なぜ通ったか?等)

論文でGraph構造をきれいな図で表現している。