Read Like Humans: Autonomous, Bidirectional and Iterative Language Modeling for Scene Text Recognition

#13

summarized by : So Uchida

Shancheng Fang, Hongtao Xie, Yuxin Wang, Zhendong Mao, Yongdong Zhang

Autonomous, Bidirectional, Iterativeをコンセプトとした文字認識モデルABINetの提案．それぞれ視覚/言語モデルが独立していること，双方向的であること，反復的に認識できることを意味する．

従来のモデルは視覚モデルと言語モデルがカスケードしており，互いに特徴空間を共有することを暗黙的に期待するが，提案モデルでは人間の認知プロセスに合わせ，互いに独立した構造を取るようにしており，勾配伝播もブロックされる．

ベースラインのSRNに比べて性能向上を確認．視覚/言語モデルが独立しているため，各ドメインでの事前学習が可能であり，性能向上に寄与する．また，視覚モデルの特徴が言語モデルへKey-Valueとして入力されるため，視覚モデルへの依存度を下げることができ，言語モデルの反復を通して結果を改善できる．

https://github.com/FangShancheng/ABINet

このページで利用されている画像は論文から引用しています．