Towards Accurate Scene Text Recognition With Semantic Reasoning Networks

#803

summarized by : Seitaro Shinagawa

Deli Yu, Xuan Li, Chengquan Zhang, Tao Liu, Junyu Han, Jingtuo Liu, Errui Ding

どんな論文か？

画像からのテキスト認識タスクにおいて、並列に画像コンテクストを処理できるGlobal Semantic Reasoning Module (GSRM)を導入したモデルSemantic Reasoning Networkを提案した。

新規性

これまでの研究ではRNNを用いた手法が研究されてきたが、RNNベースの手法は時間に依存した構造のため、テキスト情報のコンテクストの利用や計算効率に難があった。提案手法では、attentionとGlobal Semantic Reasoning Module (GSRM)により並列で処理できるモデルを提案した。

結果

画像テキスト認識の6つのデータセットで19のベースライン手法と単語認識率、文字認識率を比較して有効性を確認した。速度の比較についても検証しており、GSRMの導入でCTCベースのものよりは少し遅くなる

その他（なぜ通ったか？等）

ベースライン手法との比較だけではなく、提案モデル内の様々なバリエーションについて検討しているので提案手法の有効性に説得力がある。

このページで利用されている画像は論文から引用しています．