SimAN: Exploring Self-Supervised Representation Learning of Scene Text via Similarity-Aware Normalization

#356

summarized by : 志田遥飛

Canjie Luo; Lianwen Jin; Jingdong Chen

どんな論文か？

シーンテキスト認識のための新しい自己教師あり手法Similarity-Aware Normalization(SIm AN)を提案．現状1つの画像に写っている複数の文字を1つの文字としてみなすことはできない．このような画像に非シーケンシャル的な対照学習を適用すると精度が下がる．シーンテキスト認識のために新しいシーンケンシャルな表現学習方式を提案した．また，論文中で提案手法が有効に働くことを示した．

新規性

シーンテキスト認識タスクでの課題「1つの画像に含まれる複数の文字を1つの実体とみなすことはできない」「非シーケンシャルな対照学習をシーケンシャルなデータに直接適用すると精度が下がる」ことがわかっており，これは非シーケンシャルとシーケンシャルの間でギャップが有ることを示している．本手法では，このギャップを埋めることが可能な手法を提案し，上記の問題を解決した．

結果

SimAN(提案手法)は，表現品質を大幅に向上させ，有望な性能を達成することがわかった．（主にデータ合成，テキスト画像編集，フォント補完などのタスクで) 参考までに，SeqSLRと提案手法の比較結果の表を添付する．

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．