#298
summarized by : Atsuki Osanai
SwinTextSpotter: Scene Text Spotting via Better Synergy Between Text Detection and Text Recognition

どんな論文か?

テキストの検出・認識をE2Eで解くText Spottingモデルの提案。テキスト認識に有効な領域の検出を実現するために、Recognition Conversionと呼ばれるモジュールを導入。このモジュールでは領域検出用特徴マップとbackboneの特徴マップを階層的にFusionする。この構造によって認識ヘッドのLossが検出ヘッドにも伝播するようになり、認識を考慮した検出が可能となった。
placeholder

新規性

Recognition Conversionと呼ばれる検出器用の特徴とbackboneの特徴をFuseするmoduleを提案した点、Character levelのannotationが不要なText Spottingモデルを提案した点

結果

各ベンチマークにおいてSOTAとcomparableな精度を実現

その他(なぜ通ったか?等)

https://github.com/mxin262/SwinTextSpotter