Multi-Modal Dynamic Graph Transformer for Visual Grounding

#222

summarized by : QIUYUE

Sijia Chen; Baochun Li

どんな論文か？

既存のVisual Grounding（VG）手法は１ステップで行うため、候補領域の質が結果に大きな影響を及ぼす。ここで１ステップではなく、段階的にGrounding領域を最適していく手法を提案。領域をノードとし、領域間の関係をエッジとする。提案手法ではMulti-modalなグラフTransformerを利用して、ノードとエッジをグラフにより段階的に関係性学習を行う。

新規性

Visual Groundingタスクを１ステップではなく、段階的に最適化していけるように設計した。また、上記のための新たなMulti-modal Graph Transformerを提案した。さらに、提案のモデルは既存手法へ適応することが可能。

結果

48のInitial BBOX領域から、提案手法がFlickr30k EntitiesとRefCOCOデータセットでSOTAな精度とIoUを達成。また、提案手法を既存手法に導入することで、既存手法の性能向上も実現した。

その他（なぜ通ったか？等）

論文でGraph構造をきれいな図で表現している。

このページで利用されている画像は論文から引用しています．