#363
summarized by : Shintaro Yamamoto
Multi-Modality Cross Attention Network for Image and Sentence Matching

どんな論文か?

画像とテキストのマッチングでは、画像中の物体と文中の単語間でのマッチングが行われるようになっている。一方で、画像内の他の物体や文中の他の単語と関連することがある。そこで、同モダリティ内でのアテンションと異なるモダリティとのアテンションの2つを考える手法を提案。
placeholder

新規性

Multi-Modality Cross Attention (MMCA) Networkを提案。初めに、入力画像とテキストをそれぞれのネットワークによって処理する。その後、各モダリティを独立して処理するSelf-Attention Moduleと互いに参照するCross-Attention Moduleにより、画像とテキストそれぞれ2種類の特徴量を得る。

結果

MS COCOとFlickr30Kの2つのデータセットで実験し、精度向上に成功。

その他(なぜ通ったか?等)

ViLBERTなど類似している手法があるにもかかわらず引用がないのが気になる