TextOCR: Towards Large-Scale End-to-End Reasoning for Arbitrary-Shaped Scene Text

#121

summarized by : 岡本大和

Amanpreet Singh, Guan Pang, Mandy Toh, Jing Huang, Wojciech Galuba, Tal Hassner

Visual Question Answering のモデル学習に用いられるTextVQAデータセットに、Detection用の位置教師データと、テキストの教師データを付与した大規模データセット「TextOCR」を構築。従来の類似データセットよりも量が多く、登場する単語の偏りも改善された。

このような膨大かつ高品質なアノテーションを付与したデータセット構築したことが業界への大きな貢献と言える。また、位置とテキストの教師データがあることから、それらを利用して学習するVQAタスクのモデルを新規提案して従来手法の性能を上回る成果も出している。

従来モデルをTextOCRで学習させると、他のデータセットで学習させた場合と比べて高性能を達成した。また、新規に位置とテキストの教師データを利用して学習するVQAタスクのモデルを提案して性能向上を達成している。

このページで利用されている画像は論文から引用しています．