#697
summarized by : siida
Memory-Attended Recurrent Network for Video Captioning

どんな論文か?

Video captioningの分野において、contextを考慮したキャプション生成を行うモデルMARNを提案する。
placeholder

新規性

Vocabulary内の各単語に対して画像情報・埋め込み・その他の追加情報を与えたAttended memory decoderを用意し、decode時にencoder・Attention-based RNN decoder・Attended memory decoderとの間でattentionを計算する。

結果

MSR-VTT[Xu+, CVPR-2016]におけるcaptioning taskでMETEOR, ROUGE-L, CIDErの指標でS2VT[Venugopalan+, ICCV-2015]やRecNet[Wang+, CVPR-2018]よりも優れたaccuracyを達成した。

その他(なぜ通ったか?等)

Contextの活用を目的としてattentionの改良を図ったモデルにおいて、encoderに工夫をするケースは多く見られる([Bawden+, NAACL-2018], [Kim+, CVPR-2019])が、decoderに注目した論文は少ない。またvocabulary単位で様々な情報を与える手法が独創的である。