Iterative Answer Prediction With Pointer-Augmented Multimodal Transformers for TextVQA

#138

summarized by : Shintaro Yamamoto

Ronghang Hu, Amanpreet Singh, Trevor Darrell, Marcus Rohrbach

画像中のテキストを読み取ることで質問に回答するTextVQAに関する研究。従来手法では、異なるモダリティ間のinteractionが限定的であったのに対し、質問文、画像、OCRにより得られたテキストの3つを自由に相互参照できる手法を提案。また、出力を分類ではなく生成タスクとして扱う。

質問文、画像、OCRの3つに含まれるトークンを入力とする、Transformerベースの手法を提案した。従来のVQA研究が頻出の答えもしくはOCRより得られたトークンの中から答えを選択するのに対して、生成モデルのようにトークンを動的に選択するdecoderを構築した。

TextVQA, ST-VQA, OCR-VQAの3つのデータセットにより従来手法との比較及びablation studyを行い、提案手法により精度向上が実現可能であることを確認。

(個人的に)VQAの出力は分類タスクとして扱っていいのかが疑問であったので、今後はこの研究のように言語生成として扱われるのでは？

このページで利用されている画像は論文から引用しています．