Memory-Attended Recurrent Network for Video Captioning

#697

summarized by : siida

Wenjie Pei, Jiyuan Zhang, Xiangrong Wang, Lei Ke, Xiaoyong Shen, Yu-Wing Tai

どんな論文か？

Video captioningの分野において、contextを考慮したキャプション生成を行うモデルMARNを提案する。

新規性

Vocabulary内の各単語に対して画像情報・埋め込み・その他の追加情報を与えたAttended memory decoderを用意し、decode時にencoder・Attention-based RNN decoder・Attended memory decoderとの間でattentionを計算する。

結果

MSR-VTT[Xu+, CVPR-2016]におけるcaptioning taskでMETEOR, ROUGE-L, CIDErの指標でS2VT[Venugopalan+, ICCV-2015]やRecNet[Wang+, CVPR-2018]よりも優れたaccuracyを達成した。

その他（なぜ通ったか？等）

Contextの活用を目的としてattentionの改良を図ったモデルにおいて、encoderに工夫をするケースは多く見られる([Bawden+, NAACL-2018], [Kim+, CVPR-2019])が、decoderに注目した論文は少ない。またvocabulary単位で様々な情報を与える手法が独創的である。

このページで利用されている画像は論文から引用しています．