- …
- …
#352
summarized by : Hirokatsu Kataoka
新規性
従来ではアテンション機構を取り入れたCNN-RNN-CTC / Encoder-Decorderによりモデルを構成していたが、本論文ではGlobal Aggregation / Graph Convによるシーン内の文字認識を実現。添付画像のように従来は一文字ずつ認識して統合する方式であったが、ダイレクトに認識する方式を提案。論文中では詳細な特徴表現を行なった。
結果
英語文字認識タスクであるIIIT5k, SVT, IC03, IC13, IC15,SVTP, CUTEデータセット、中国語のRCTWデータセットにより検証。精度とともに検出速度とのトレードオフにおいて優れた手法を提案できたと主張。
その他(なぜ通ったか?等)
シーン中の文字認識について、今までの延長ではない新しいタイプの手法を提案したことが評価されたと思われる。この文脈で使える表現学習も提供したことが評価された。
- …
- …