#304
summarized by : QIU YUE
Predicting Human Scanpaths in Visual Question Answering

どんな論文か?

Taskdriven context (ここでVQAをメインに取り上げた)で、Scanpaths(時系列のeye fixations)を推定する手法を提案した。人間が異なるタスクに対してのVisual exploration behaviorを強化学習ベースな手法で予測する強化学習ベースなモデルを提案。
placeholder

新規性

①異なるタスクで人間の視覚探索行動をモダリングできる手法を提案。

結果

提案手法が3つのタスク:VQA、free-viewingとvisual searchにおいてSoTAな達成。人間レベルの精度を得られた。

その他(なぜ通ったか?等)

論文のScanpathsがまたあまり理解できていません。個人的に普通のVQAでのAttention mapsを利用した研究とどう違うかは理解できていないです。