#560
summarized by : Yue Qiu
Visual-Semantic Matching by Exploring High-Order Attention and Distraction

どんな論文か?

Semantic matchingのための新たな手法を提案.提案手法は2つの従来重視されていない2点に着目:①textとImageの high-order セマンティック情報;②visual distraction (画像中に良く含まれるdistracting物体、関係など).TextとImageをScene Graphsにし,Attention-basedなGraph CNにより関係学習.
placeholder

新規性

①TextとImage両方をScene Graphにしてからセマンティック上の対応を行っている.従来のObject-regionベースな手法よりもっとHigh-orderでセマンティック対応ができる.②visual-semantic matchingにおいて初めてのexplicitly visual distraction問題を探索する研究.

結果

①MS-COCOとFlickrデータセットでSOTAなSentence及びImage Regrieval性能を得た.②定性的結果により提案手法が有効的にHigh-orderなAttentionを得られることを示した.

その他(なぜ通ったか?等)

画像とText両方をScene Graph表示にしてからCorrelateすることがなかなかやられていない(Senseがあるが、画像からSceneGraphを生成することを経由して精度が影響されやすい).