#356
summarized by : 志田遥飛
SimAN: Exploring Self-Supervised Representation Learning of Scene Text via Similarity-Aware Normalization

どんな論文か?

シーンテキスト認識のための新しい自己教師あり手法Similarity-Aware Normalization(SIm AN)を提案.現状1つの画像に写っている複数の文字を1つの文字としてみなすことはできない.このような画像に非シーケンシャル的な対照学習を適用すると精度が下がる.シーンテキスト認識のために新しいシーンケンシャルな表現学習方式を提案した.また,論文中で提案手法が有効に働くことを示した.
placeholder

新規性

シーンテキスト認識タスクでの課題「1つの画像に含まれる複数の文字を1つの実体とみなすことはできない」「非シーケンシャルな対照学習をシーケンシャルなデータに直接適用すると精度が下がる」ことがわかっており,これは非シーケンシャルとシーケンシャルの間でギャップが有ることを示している.本手法では,このギャップを埋めることが可能な手法を提案し,上記の問題を解決した.

結果

SimAN(提案手法)は,表現品質を大幅に向上させ,有望な性能を達成することがわかった.(主にデータ合成,テキスト画像編集,フォント補完などのタスクで) 参考までに,SeqSLRと提案手法の比較結果の表を添付する.

その他(なぜ通ったか?等)