#181
summarized by : Yue Qiu
Spatially Aware Multimodal Transformers for TextVQA

どんな論文か?

画像中に深まれるTextを理解し、それをベースとしたText questionを回答する手法の提案.既存手法はシーンに含まれるspatial structureをimplicitlyで理解を行い、Spatial関係の理解に弱い傾向がある.この文章でSpatial aware self-attention layerを提案し,図構造によりVisual entityと近傍間の関係を明示的に学習.
placeholder

新規性

明示的に画像、OCR、Textから図構造をベースとした手法によりSpatial reasoningを行うTextQA手法の提案.具体的に従来の手法と比べ2つのところが新しい.①headがすべてのvisual entitiesではなく、Local contextに集中し、Attentionの発散を抑制した;②図構造により異なるタイプの関係をEncodeし、特徴のRedundantを抑制.

結果

TextVQAデータセットにおいて従来のSOTAより2.2%向上、更にspatial reasoningに関わる質問に対して4.62%向上できた.また,ST-VQAデータセットにおいてもSOTAを達成.更に、定性結果によりVisual Grounding能力を向上できたことを示した.

その他(なぜ通ったか?等)

Dhruv, Devi研の研究.