#587
summarized by : Yue Qiu
IMRAM: Iterative Matching With Recurrent Attention Memory for Cross-Modal Image-Text Retrieval

どんな論文か?

Image-Text RetrievalタスクのSemantic 複雑性に着目したマルチステップで画像とテキストのアラインを行う手法IMRAMの提案.2つのコアなところから構成:① cross-modal attentionを用いたrecurrent attention memoryで段階的Alignを行う; ②memory distillation unitにより前の情報をLaterに集計する.
placeholder

新規性

①Iterative matchingモデルを提案.段階的にProgressiveで画像とテキストのアライメントを行う;②Iterative matchingを行えるための新しいフレームワークの提案:recurrent attention とMemory distillation unitから構成;③実験で提案手法は有効的にTextにより画像中に異なる領域にAttentionすることを示した.

結果

①3つの広く使われているベンチマックデータセットFlickr8K, Flickr30K, MS COCOでSOTAなImage <-> TextのRetrieval結果を達成.②新たなBusiness advertisement dataset: KWAIAD datasetを提案し,提案データセットにおいて大幅に従来手法より良い性能を達成し,提案モデルがSpecifiedな領域の有用性を示した.

その他(なぜ通ったか?等)

Image-Textのマッチングが高複雑度を持ち,従来手法は統一されたモデルでその高複雑度をモデリングする.提案手法はその複雑度を段階的なプロセスによりProgressiveで行うところが良かった.