Context-Aware Attention Network for Image-Text Retrieval

#585

summarized by : Yue Qiu

Qi Zhang, Zhen Lei, Zhaoxiang Zhang, Stan Z. Li

どんな論文か？

Image-Text Retrievalの新たな手法Context-Aware Attention Network (CAAN)を提案．提案手法はInformativeなローカルfragmentをフォーカス可能である．CAANはIntra-とInter-モデルのAttentionにより，Word-regionペアとSemantic correlationsからcontext 情報を集計する．

新規性

①画像領域⁻Word間のInterモデルアテンションと画像⁻画像、Word-wordのIntra-モデルAttentionをSingleモデルでできるフレームワークを提案．②Semantic-basedなAttentionを用いてintra-modalのcorrelationsをキャプチャーする．

結果

Flickr30KとMSCOCOデータセットで高い精度でImage-TextのRetrievalを行える．さらに，Attention可視化の結果により提案手法は有効的に異なるTextに対して画像中に異なる有意義な領域にAttentionされていることを示した．

その他（なぜ通ったか？等）

モデルがシンプルかつ有効．また，Attentionの結果が良かった．テキストにより画像中に異なる領域にAttentionできるところが解釈性と実用性が高い．

このページで利用されている画像は論文から引用しています．