SwinTextSpotter: Scene Text Spotting via Better Synergy Between Text Detection and Text Recognition

#298

summarized by : Atsuki Osanai

Mingxin Huang; Yuliang Liu; Zhenghao Peng; Chongyu Liu; Dahua Lin; Shenggao Zhu; Nicholas Yuan; Kai Ding; Lianwen Jin

どんな論文か？

テキストの検出・認識をE2Eで解くText Spottingモデルの提案。テキスト認識に有効な領域の検出を実現するために、Recognition Conversionと呼ばれるモジュールを導入。このモジュールでは領域検出用特徴マップとbackboneの特徴マップを階層的にFusionする。この構造によって認識ヘッドのLossが検出ヘッドにも伝播するようになり、認識を考慮した検出が可能となった。

新規性

Recognition Conversionと呼ばれる検出器用の特徴とbackboneの特徴をFuseするmoduleを提案した点、Character levelのannotationが不要なText Spottingモデルを提案した点

結果

各ベンチマークにおいてSOTAとcomparableな精度を実現

その他（なぜ通ったか？等）

https://github.com/mxin262/SwinTextSpotter

このページで利用されている画像は論文から引用しています．