#13
summarized by : Seitaro Shinagawa
Efficient Attention Mechanism for Visual Dialog that can Handle All the Interactions between Multiple Inputs

どんな論文か?

画像に対して質問応答の履歴も考慮して質問に回答するVisual dialogタスクにおいて、モデルは複数の入力(画像、質問、質問応答の履歴)を考慮する必要がある。本研究では複数入力に対応するTransformerベースのモデルLTMIを提案し、入力ごとに別々のmulti-headをあてがう工夫によって、少ないパラメータで高い性能を達成した。
placeholder

新規性

通常のtransformerベースの手法は多入力を扱うのが難しかったが、本研究では入力ごとにmulti-headをあてがうことで多入力に対応している。

結果

VisDialデータセット(v1.0)を利用した。評価指標はnormalized discounted cumulative gain (NDCG) と、回答のRecall@kとmean reciprocal rank (MRR)。提案モデルLTMIはNDCGでベストだったが、他の指標では同程度だった。

その他(なぜ通ったか?等)

補足:NDCGは、"yes it is"と"yes"など、ground truth以外にも正解がある場合を考慮できる指標とのこと。著者は東北大の岡谷研の方々。