#138
summarized by : Shintaro Yamamoto
Iterative Answer Prediction With Pointer-Augmented Multimodal Transformers for TextVQA

どんな論文か?

画像中のテキストを読み取ることで質問に回答するTextVQAに関する研究。従来手法では、異なるモダリティ間のinteractionが限定的であったのに対し、質問文、画像、OCRにより得られたテキストの3つを自由に相互参照できる手法を提案。また、出力を分類ではなく生成タスクとして扱う。
placeholder

新規性

質問文、画像、OCRの3つに含まれるトークンを入力とする、Transformerベースの手法を提案した。従来のVQA研究が頻出の答えもしくはOCRより得られたトークンの中から答えを選択するのに対して、生成モデルのようにトークンを動的に選択するdecoderを構築した。

結果

TextVQA, ST-VQA, OCR-VQAの3つのデータセットにより従来手法との比較及びablation studyを行い、提案手法により精度向上が実現可能であることを確認。

その他(なぜ通ったか?等)

(個人的に)VQAの出力は分類タスクとして扱っていいのかが疑問であったので、今後はこの研究のように言語生成として扱われるのでは?