summarized by : Shintaro Yamamoto
Chunxiao Liu, Zhendong Mao, Tianzhu Zhang, Hongtao Xie, Bin Wang, Yongdong Zhang
従来の画像とテキストのマッチング手法は、画像中の物体と文中の単語間で粗い対応付けを行っていた。画像とテキストのマッチングを、グラフのマッチングとして扱うことで、fine-grainedな対応付けを実現する。
画像とテキストそれぞれからグラフを作成し、グラフ同士のマッチングを行う手法を提案した。グラフのマッチングは、ノードレベルの粗い対応付けと構造レベルのfine-grainedな対応付けの2つを考える。
Flickr30KとMSCOCOの2つのベンチマークにおいて、提案手法がSOTAを更新した。