#718
summarized by : So Uchida
Scene Text Telescope: Text-Focused Scene Image Super-Resolution

どんな論文か?

文字認識の前処理として超解像を行う上で、複雑なレイアウトへの頑健性を獲得するため、2次元の位置埋め込みを持つTransformerをバックボーンに用いる。また、出力画像/GTに対するAttentionマップ・文字認識結果の差も誤差関数に組み込む。後者では、VAEをEMNISTで学習して得た文字埋め込みを用いて、混同しやすい文字に重み付けする。
placeholder

新規性

文字超解像のバックボーンにTansformerを活用。従来は系列として扱わない、もしくは縦横方向のBiLSTMを利用しており、レイアウトへの頑健性が低かった。

結果

CRNNによる文字認識精度をTextZoomデータセット上で比較する実験でSOTA。ガウシアンカーネルのσを大きくした場合に改善が大きい。長い文字列やアーティスティックなフォントにはまだ弱い。

その他(なぜ通ったか?等)

2D特徴を意識しているのならば評価に用いる文字認識モデルも2D認識ができるモデルを採用した方がいいのではないかと感じた。