#121
summarized by : 岡本大和
TextOCR: Towards Large-Scale End-to-End Reasoning for Arbitrary-Shaped Scene Text

どんな論文か?

Visual Question Answering のモデル学習に用いられるTextVQAデータセットに、Detection用の位置教師データと、テキストの教師データを付与した大規模データセット「TextOCR」を構築。従来の類似データセットよりも量が多く、登場する単語の偏りも改善された。
placeholder

新規性

このような膨大かつ高品質なアノテーションを付与したデータセット構築したことが業界への大きな貢献と言える。また、位置とテキストの教師データがあることから、それらを利用して学習するVQAタスクのモデルを新規提案して従来手法の性能を上回る成果も出している。

結果

従来モデルをTextOCRで学習させると、他のデータセットで学習させた場合と比べて高性能を達成した。また、新規に位置とテキストの教師データを利用して学習するVQAタスクのモデルを提案して性能向上を達成している。

その他(なぜ通ったか?等)