#314
summarized by : kota yoshida
ESIR: End-To-End Scene Text Recognition via Iterative Image Rectification

どんな論文か?

近年のDNN技術は,画像アーティファクトによる外観の変動ややテキストのスタイル変更に対して頑健であるが,遠近感や曲率の歪みがあるシーンテキストを扱うことにはまだ課題がある. そこで,この研究では,遠近歪みとテキストライン湾曲を反復的に除去する手法であるend-to-end trainable scene text recognition system(ESIR)を提案.
placeholder

新規性

シーンテキストの歪みを反復的に修正するネットワークと、修正されたシーンテキストを認識する認識ネットワークで構成. 特に歪みを反復的に修正するネットワークは,直線または曲線のテキストラインを推定できる多項式を使用してテキストの中央ラインをモデル化することで,強力かつ様々な歪みを修正することができるラインフィッティング変換を設計.また,遠近歪みだけでなく、様々な曲率も補正することができる.

結果

提案されたESIRがシーンテキストの歪みを正確に修正することができ、通常のシーンテキスト画像と遠近および曲率歪みを被るものの両方に対して優れた認識性能を達成することを示した.

その他(なぜ通ったか?等)