- …
- …
#222
summarized by : QIUYUE
どんな論文か?
既存のVisual Grounding(VG)手法は1ステップで行うため、候補領域の質が結果に大きな影響を及ぼす。ここで1ステップではなく、段階的にGrounding領域を最適していく手法を提案。領域をノードとし、領域間の関係をエッジとする。提案手法ではMulti-modalなグラフTransformerを利用して、ノードとエッジをグラフにより段階的に関係性学習を行う。
新規性
Visual Groundingタスクを1ステップではなく、段階的に最適化していけるように設計した。また、上記のための新たなMulti-modal Graph Transformerを提案した。さらに、提案のモデルは既存手法へ適応することが可能。
結果
48のInitial BBOX領域から、提案手法がFlickr30k EntitiesとRefCOCOデータセットでSOTAな精度とIoUを達成。また、提案手法を既存手法に導入することで、既存手法の性能向上も実現した。
その他(なぜ通ったか?等)
論文でGraph構造をきれいな図で表現している。
- …
- …