- …
- …
#697
summarized by : siida
新規性
Vocabulary内の各単語に対して画像情報・埋め込み・その他の追加情報を与えたAttended memory decoderを用意し、decode時にencoder・Attention-based RNN decoder・Attended memory decoderとの間でattentionを計算する。
結果
MSR-VTT[Xu+, CVPR-2016]におけるcaptioning taskでMETEOR, ROUGE-L, CIDErの指標でS2VT[Venugopalan+, ICCV-2015]やRecNet[Wang+, CVPR-2018]よりも優れたaccuracyを達成した。
その他(なぜ通ったか?等)
Contextの活用を目的としてattentionの改良を図ったモデルにおいて、encoderに工夫をするケースは多く見られる([Bawden+, NAACL-2018], [Kim+, CVPR-2019])が、decoderに注目した論文は少ない。またvocabulary単位で様々な情報を与える手法が独創的である。
- …
- …