- …
- …
#13
summarized by : So Uchida
どんな論文か?
Autonomous, Bidirectional, Iterativeをコンセプトとした文字認識モデルABINetの提案.それぞれ視覚/言語モデルが独立していること,双方向的であること,反復的に認識できることを意味する.
新規性
従来のモデルは視覚モデルと言語モデルがカスケードしており,互いに特徴空間を共有することを暗黙的に期待するが,提案モデルでは人間の認知プロセスに合わせ,互いに独立した構造を取るようにしており,勾配伝播もブロックされる.
結果
ベースラインのSRNに比べて性能向上を確認.視覚/言語モデルが独立しているため,各ドメインでの事前学習が可能であり,性能向上に寄与する.また,視覚モデルの特徴が言語モデルへKey-Valueとして入力されるため,視覚モデルへの依存度を下げることができ,言語モデルの反復を通して結果を改善できる.
その他(なぜ通ったか?等)
https://github.com/FangShancheng/ABINet
- …
- …