Vision-Dialog Navigation by Exploring Cross-Modal Memory

#198

summarized by : Yue Qiu

Yi Zhu, Fengda Zhu, Zhaohuan Zhan, Bingqian Lin, Jianbin Jiao, Xiaojun Chang, Xiaodan Liang

どんな論文か？

Vision-Dialog Navigationタスクのための新たなモデルCross-modal memory networkの提案．提案モデルは①Language memory module; ②Visual memory moduleを用いて，現在のSentenceと過去の会話履歴、現在の画像と過去のNavigation actionsを関連付け、既存手法より良い性能を得られた．

新規性

①languageと visualのco-attentionメカニズムをVision-Dialog Navigationタスクに適応した．②cross-modal memoryモジュールの提案．

結果

Vision-Dialog Navigationタスク用のデータセットCVDN (Cooperative Vision-and-Dialog Navigation)においてseen, unseen設定両方においてSOTAな精度を達成．

その他（なぜ通ったか？等）

Vision-Dialog Navigationタスクはまたやっている人が少なく，ライバルが少ない．

このページで利用されている画像は論文から引用しています．