Guessing State Tracking for Visual Dialogue

#123

summarized by : Seitaro Shinagawa

Wei Pang, Xiaojie Wang

どんな論文か？

自然言語で質問を行いながら画像中の特定の物体を当てるGuessWhat?!タスクにおいて、予測の確信度(Guessing state)を導入することで、モデルが各物体に対してどのような予測を行っているのかを各ターンごとに可視化できるようにした。タスクへの性能も向上した。

新規性

これまでの手法は固定ターン数の対話を行い、最後に予測を行う方法が多かったが、途中で予測が十分ならばそこで終了した方が対話としては良い。このため、モデルが各物体に対して予測を行えるようにモデルを構築した点が新しい。この予測分布は物体予測のため教師あり学習で最適化でき、その分性能向上にも貢献したのだと思われる。

結果

GuessWhat?!データセットにおいて、質問生成器には既存の２種類のモデルを採用して実験した結果、提案モデルを利用する組合わせが最高性能となった。

その他（なぜ通ったか？等）

この研究の問題提起は、対話を止めるタイミングだと思われるが、そこまでは突っ込んでおらず固定ターンでの性能向上を報告しているので違和感が残る。しかし、これは論文の書き方の問題で、各ターンでの物体予測による性能向上自体には価値があると思われる。

このページで利用されている画像は論文から引用しています．