Primitive Representation Learning for Scene Text Recognition

#352

summarized by : Hirokatsu Kataoka

Ruijie Yan, Liangrui Peng, Shanyu Xiao, Gang Yao

どんな論文か？

画像中のシーン内に含まれる文字を認識する技術。この問題に関して、CNN/GCNの文脈で詳細な特徴表現を学習できるような構成にした。

新規性

従来ではアテンション機構を取り入れたCNN-RNN-CTC / Encoder-Decorderによりモデルを構成していたが、本論文ではGlobal Aggregation / Graph Convによるシーン内の文字認識を実現。添付画像のように従来は一文字ずつ認識して統合する方式であったが、ダイレクトに認識する方式を提案。論文中では詳細な特徴表現を行なった。

結果

英語文字認識タスクであるIIIT5k, SVT, IC03, IC13, IC15,SVTP, CUTEデータセット、中国語のRCTWデータセットにより検証。精度とともに検出速度とのトレードオフにおいて優れた手法を提案できたと主張。

その他（なぜ通ったか？等）

シーン中の文字認識について、今までの延長ではない新しいタイプの手法を提案したことが評価されたと思われる。この文脈で使える表現学習も提供したことが評価された。

このページで利用されている画像は論文から引用しています．