#128
summarized by : Keisuke Kamahori
RobustScanner: Dynamically Enhancing Positional Clues for Robust Text Recognition

どんな論文か?

テキスト認識において、従来の encoder-decoder with attention のモデルには文脈のないランダムな文字列に対する性能が低いという問題があった。その原因は従来のモデルでは位置情報が十分活用されないためであることを発見し、よりランダム文字列に適したネットワークを設計した。
placeholder

新規性

観察により、従来モデルは文脈と位置の情報をエンコードしているが、タイムステップを繰り返すうちに位置情報が文脈情報にかき消されてしまうことがわかった。これを解決するため、位置情報の重要度を高めたネットワーク RobustScanner を設計した。

結果

文字認識の多くのベンチマークで SOTA を達成し、特にランダムな文字列や irregular な文字に対して高い性能を示した。低画質であるなど文脈情報が重要になるデータに対してもある程度の頑健性を示した。

その他(なぜ通ったか?等)