- …
- …
#13
summarized by : Seitaro Shinagawa
どんな論文か?
画像に対して質問応答の履歴も考慮して質問に回答するVisual dialogタスクにおいて、モデルは複数の入力(画像、質問、質問応答の履歴)を考慮する必要がある。本研究では複数入力に対応するTransformerベースのモデルLTMIを提案し、入力ごとに別々のmulti-headをあてがう工夫によって、少ないパラメータで高い性能を達成した。
新規性
通常のtransformerベースの手法は多入力を扱うのが難しかったが、本研究では入力ごとにmulti-headをあてがうことで多入力に対応している。
結果
VisDialデータセット(v1.0)を利用した。評価指標はnormalized discounted cumulative gain (NDCG) と、回答のRecall@kとmean reciprocal rank (MRR)。提案モデルLTMIはNDCGでベストだったが、他の指標では同程度だった。
その他(なぜ通ったか?等)
補足:NDCGは、"yes it is"と"yes"など、ground truth以外にも正解がある場合を考慮できる指標とのこと。著者は東北大の岡谷研の方々。
- …
- …