#13
summarized by : So Uchida
Read Like Humans: Autonomous, Bidirectional and Iterative Language Modeling for Scene Text Recognition

どんな論文か?

Autonomous, Bidirectional, Iterativeをコンセプトとした文字認識モデルABINetの提案.それぞれ視覚/言語モデルが独立していること,双方向的であること,反復的に認識できることを意味する.
placeholder

新規性

従来のモデルは視覚モデルと言語モデルがカスケードしており,互いに特徴空間を共有することを暗黙的に期待するが,提案モデルでは人間の認知プロセスに合わせ,互いに独立した構造を取るようにしており,勾配伝播もブロックされる.

結果

ベースラインのSRNに比べて性能向上を確認.視覚/言語モデルが独立しているため,各ドメインでの事前学習が可能であり,性能向上に寄与する.また,視覚モデルの特徴が言語モデルへKey-Valueとして入力されるため,視覚モデルへの依存度を下げることができ,言語モデルの反復を通して結果を改善できる.

その他(なぜ通ったか?等)

https://github.com/FangShancheng/ABINet