#585
summarized by : Yue Qiu
Context-Aware Attention Network for Image-Text Retrieval

どんな論文か?

Image-Text Retrievalの新たな手法Context-Aware Attention Network (CAAN)を提案.提案手法はInformativeなローカルfragmentをフォーカス可能である.CAANはIntra-とInter-モデルのAttentionにより,Word-regionペアとSemantic correlationsからcontext 情報を集計する.
placeholder

新規性

①画像領域⁻Word間のInterモデルアテンションと画像⁻画像、Word-wordのIntra-モデルAttentionをSingleモデルでできるフレームワークを提案.②Semantic-basedなAttentionを用いてintra-modalのcorrelationsをキャプチャーする.

結果

Flickr30KとMSCOCOデータセットで高い精度でImage-TextのRetrievalを行える.さらに,Attention可視化の結果により提案手法は有効的に異なるTextに対して画像中に異なる有意義な領域にAttentionされていることを示した.

その他(なぜ通ったか?等)

モデルがシンプルかつ有効.また,Attentionの結果が良かった.テキストにより画像中に異なる領域にAttentionできるところが解釈性と実用性が高い.