Predicting Human Scanpaths in Visual Question Answering

#304

summarized by : QIU YUE

Xianyu Chen, Ming Jiang, Qi Zhao

どんな論文か？

Taskdriven context (ここでVQAをメインに取り上げた)で、Scanpaths（時系列のeye fixations）を推定する手法を提案した。人間が異なるタスクに対してのVisual exploration behaviorを強化学習ベースな手法で予測する強化学習ベースなモデルを提案。

新規性

①異なるタスクで人間の視覚探索行動をモダリングできる手法を提案。

結果

提案手法が3つのタスク：VQA、free-viewingとvisual searchにおいてSoTAな達成。人間レベルの精度を得られた。

その他（なぜ通ったか？等）

論文のScanpathsがまたあまり理解できていません。個人的に普通のＶＱＡでのAttention mapsを利用した研究とどう違うかは理解できていないです。

このページで利用されている画像は論文から引用しています．