Efficient Attention Mechanism for Visual Dialog that can Handle All the Interactions between Multiple Inputs

#13

summarized by : Seitaro Shinagawa

Van-Quang Nguyen, Masanori Suganuma, Takayuki Okatani

どんな論文か？

画像に対して質問応答の履歴も考慮して質問に回答するVisual dialogタスクにおいて、モデルは複数の入力（画像、質問、質問応答の履歴）を考慮する必要がある。本研究では複数入力に対応するTransformerベースのモデルLTMIを提案し、入力ごとに別々のmulti-headをあてがう工夫によって、少ないパラメータで高い性能を達成した。

新規性

通常のtransformerベースの手法は多入力を扱うのが難しかったが、本研究では入力ごとにmulti-headをあてがうことで多入力に対応している。

結果

VisDialデータセット(v1.0)を利用した。評価指標はnormalized discounted cumulative gain (NDCG) と、回答のRecall@kとmean reciprocal rank (MRR)。提案モデルLTMIはNDCGでベストだったが、他の指標では同程度だった。

その他（なぜ通ったか？等）

補足：NDCGは、"yes it is"と"yes"など、ground truth以外にも正解がある場合を考慮できる指標とのこと。著者は東北大の岡谷研の方々。

このページで利用されている画像は論文から引用しています．