- …
- …
#718
summarized by : So Uchida
どんな論文か?
文字認識の前処理として超解像を行う上で、複雑なレイアウトへの頑健性を獲得するため、2次元の位置埋め込みを持つTransformerをバックボーンに用いる。また、出力画像/GTに対するAttentionマップ・文字認識結果の差も誤差関数に組み込む。後者では、VAEをEMNISTで学習して得た文字埋め込みを用いて、混同しやすい文字に重み付けする。
新規性
文字超解像のバックボーンにTansformerを活用。従来は系列として扱わない、もしくは縦横方向のBiLSTMを利用しており、レイアウトへの頑健性が低かった。
結果
CRNNによる文字認識精度をTextZoomデータセット上で比較する実験でSOTA。ガウシアンカーネルのσを大きくした場合に改善が大きい。長い文字列やアーティスティックなフォントにはまだ弱い。
その他(なぜ通ったか?等)
2D特徴を意識しているのならば評価に用いる文字認識モデルも2D認識ができるモデルを採用した方がいいのではないかと感じた。
- …
- …