Multi-Modality Cross Attention Network for Image and Sentence Matching

#363

summarized by : Shintaro Yamamoto

Xi Wei, Tianzhu Zhang, Yan Li, Yongdong Zhang, Feng Wu

どんな論文か？

画像とテキストのマッチングでは、画像中の物体と文中の単語間でのマッチングが行われるようになっている。一方で、画像内の他の物体や文中の他の単語と関連することがある。そこで、同モダリティ内でのアテンションと異なるモダリティとのアテンションの2つを考える手法を提案。

新規性

Multi-Modality Cross Attention (MMCA) Networkを提案。初めに、入力画像とテキストをそれぞれのネットワークによって処理する。その後、各モダリティを独立して処理するSelf-Attention Moduleと互いに参照するCross-Attention Moduleにより、画像とテキストそれぞれ2種類の特徴量を得る。

結果

MS COCOとFlickr30Kの2つのデータセットで実験し、精度向上に成功。

その他（なぜ通ったか？等）

ViLBERTなど類似している手法があるにもかかわらず引用がないのが気になる

このページで利用されている画像は論文から引用しています．