TAP: Text-Aware Pre-Training for Text-VQA and Text-Caption

#333

summarized by : Norihito Ishida

Zhengyuan Yang, Yijuan Lu, Jianfeng Wang, Xi Yin, Dinei Florencio, Lijuan Wang, Cha Zhang, Lei Zhang, Jiebo Luo

どんな論文か？

Text-VQA/Text-Captionのための画像/文章マルチモーダルpre-traning (TAP : Text-Aware Pre-Training) を提案

新規性

"Text word embedding", "Visual object embedding", "Scene text embedding"を Multi-modal Transformer Layer に入力し、"MLM", "Relative position prediction", "Image-text matching"の pre-trainingを行う

結果

既存手法より性能向上 (+8.3% accuracy on TextVQA, +8.6% accuracy on ST-VQA, +10.2 CIDEr score on TextCaps)

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．