AE TextSpotter: Learning Visual and Linguistic Representation for Ambiguous Text Spotting

#87

summarized by : Keisuke Kamahori

Wenhai Wang, Xuebo Liu, Xiaozhong Ji, Enze Xie, Ding Liang, ZhiBo Yang, Tong Lu, Chunhua Shen, Ping Luo

画像中のテキスト認識のタスクにおいて、曖昧な(文字間隔が広い、敷き詰められているなど)画像に対する精度を上げるために言語情報を用いることを提案し、画像から抽出したテキストの候補に対して言語モジュールでスコア付けを行うネットワークを設計した。

テキスト検出のタスクに対して初めて言語情報を用い、自然言語の文章として適切かどうかのスコアを学習に利用した。また、高速で複数のテキスト候補を読み取る手法を設計した。

言語情報を用いることの有用性を示し、曖昧な文字画像を集めた validation set において SOTA を達成した。

https://github.com/whai362/TDA-ReCTS

このページで利用されている画像は論文から引用しています．