- …
- …
#181
summarized by : Yue Qiu
どんな論文か?
画像中に深まれるTextを理解し、それをベースとしたText questionを回答する手法の提案.既存手法はシーンに含まれるspatial structureをimplicitlyで理解を行い、Spatial関係の理解に弱い傾向がある.この文章でSpatial aware self-attention layerを提案し,図構造によりVisual entityと近傍間の関係を明示的に学習.
新規性
明示的に画像、OCR、Textから図構造をベースとした手法によりSpatial reasoningを行うTextQA手法の提案.具体的に従来の手法と比べ2つのところが新しい.①headがすべてのvisual entitiesではなく、Local contextに集中し、Attentionの発散を抑制した;②図構造により異なるタイプの関係をEncodeし、特徴のRedundantを抑制.
結果
TextVQAデータセットにおいて従来のSOTAより2.2%向上、更にspatial reasoningに関わる質問に対して4.62%向上できた.また,ST-VQAデータセットにおいてもSOTAを達成.更に、定性結果によりVisual Grounding能力を向上できたことを示した.
その他(なぜ通ったか?等)
Dhruv, Devi研の研究.
- …
- …