#14
summarized by : Atsuki Osanai
Pushing the Performance Limit of Scene Text Recognizer Without Human Annotation

どんな論文か?

Semi-supervised Learning(SSL)を用いたText認識モデルのReal Domain(RD)適応.教師なしデータを扱うブランチで対照学習を行いRDで有用な特徴を獲得しつつ,別ブランチで教師あり学習を行う.教師あり/なしデータのDomainが異なっていても高い精度を実現,少量データでの汎化性も向上した.
placeholder

新規性

・教師なしデータ用のブランチでMoCoを応用したDomain Generalな特徴の獲得 ・対照学習におけるConsistency Regularizationを(画像レベルではなく)文字レベルで行う手法の導入

結果

IIIT5k, SVT, IC13/15, SCTP, CUTE datasetにおいて,各種ベースモデルに提案手法を適用し一様に改善を得ている.

その他(なぜ通ったか?等)

・手法の汎用性が高く応用が効く内容だと感じた ・Ablation Studyの網羅性,他のSSL手法との比較により本手法の有用性をアピールできている