#87
summarized by : Keisuke Kamahori
AE TextSpotter: Learning Visual and Linguistic Representation for Ambiguous Text Spotting

どんな論文か?

画像中のテキスト認識のタスクにおいて、曖昧な(文字間隔が広い、敷き詰められているなど)画像に対する精度を上げるために言語情報を用いることを提案し、画像から抽出したテキストの候補に対して言語モジュールでスコア付けを行うネットワークを設計した。
placeholder

新規性

テキスト検出のタスクに対して初めて言語情報を用い、自然言語の文章として適切かどうかのスコアを学習に利用した。また、高速で複数のテキスト候補を読み取る手法を設計した。

結果

言語情報を用いることの有用性を示し、曖昧な文字画像を集めた validation set において SOTA を達成した。

その他(なぜ通ったか?等)

https://github.com/whai362/TDA-ReCTS