Visual-Semantic Matching by Exploring High-Order Attention and Distraction

#560

summarized by : Yue Qiu

Yongzhi Li, Duo Zhang, Yadong Mu

どんな論文か？

Semantic matchingのための新たな手法を提案．提案手法は2つの従来重視されていない2点に着目：①textとImageの high-order セマンティック情報；②visual distraction (画像中に良く含まれるdistracting物体、関係など)．TextとImageをScene Graphsにし，Attention-basedなGraph CNにより関係学習．

新規性

①TextとImage両方をScene Graphにしてからセマンティック上の対応を行っている．従来のObject-regionベースな手法よりもっとHigh-orderでセマンティック対応ができる．②visual-semantic matchingにおいて初めてのexplicitly visual distraction問題を探索する研究．

結果

①MS-COCOとFlickrデータセットでSOTAなSentence及びImage Regrieval性能を得た．②定性的結果により提案手法が有効的にHigh-orderなAttentionを得られることを示した．

その他（なぜ通ったか？等）

画像とText両方をScene Graph表示にしてからCorrelateすることがなかなかやられていない（Senseがあるが、画像からSceneGraphを生成することを経由して精度が影響されやすい）．

このページで利用されている画像は論文から引用しています．