Spatially Aware Multimodal Transformers for TextVQA

#181

summarized by : Yue Qiu

Yash Kant, Dhruv Batra, Peter Anderson, Alexander Schwing, Devi Parikh, Jiasen Lu, Harsh Agrawal

どんな論文か？

画像中に深まれるTextを理解し、それをベースとしたText questionを回答する手法の提案．既存手法はシーンに含まれるspatial structureをimplicitlyで理解を行い、Spatial関係の理解に弱い傾向がある．この文章でSpatial aware self-attention layerを提案し，図構造によりVisual entityと近傍間の関係を明示的に学習．

新規性

明示的に画像、OCR、Textから図構造をベースとした手法によりSpatial reasoningを行うTextQA手法の提案．具体的に従来の手法と比べ2つのところが新しい．①headがすべてのvisual entitiesではなく、Local contextに集中し、Attentionの発散を抑制した；②図構造により異なるタイプの関係をEncodeし、特徴のRedundantを抑制．

結果

TextVQAデータセットにおいて従来のSOTAより2.2%向上、更にspatial reasoningに関わる質問に対して4.62%向上できた．また，ST-VQAデータセットにおいてもSOTAを達成．更に、定性結果によりVisual Grounding能力を向上できたことを示した．

その他（なぜ通ったか？等）

Dhruv, Devi研の研究．

このページで利用されている画像は論文から引用しています．