- …
- …
#138
summarized by : Shintaro Yamamoto
どんな論文か?
画像中のテキストを読み取ることで質問に回答するTextVQAに関する研究。従来手法では、異なるモダリティ間のinteractionが限定的であったのに対し、質問文、画像、OCRにより得られたテキストの3つを自由に相互参照できる手法を提案。また、出力を分類ではなく生成タスクとして扱う。
新規性
質問文、画像、OCRの3つに含まれるトークンを入力とする、Transformerベースの手法を提案した。従来のVQA研究が頻出の答えもしくはOCRより得られたトークンの中から答えを選択するのに対して、生成モデルのようにトークンを動的に選択するdecoderを構築した。
結果
TextVQA, ST-VQA, OCR-VQAの3つのデータセットにより従来手法との比較及びablation studyを行い、提案手法により精度向上が実現可能であることを確認。
その他(なぜ通ったか?等)
(個人的に)VQAの出力は分類タスクとして扱っていいのかが疑問であったので、今後はこの研究のように言語生成として扱われるのでは?
- …
- …