- …
- …
#235
summarized by : Shinnosuke Matsufusa
どんな論文か?
芸術的なテキストは、フォントが特殊だったり、文字間の複雑な接続や重なり、背景パターンに寄る鑑賞などが原因で、機械学習のアプローチにより認識することが非常に困難。
本論文では、特徴抽出を行う領域を文字のコーナーのレベル、文字レベル、画像レベルの3段階に分け、頑健な特徴抽出を行うモデルCornerTransformerを提案。また、性能評価のため、芸術的なテキストのデータセットWordAatも提供。
新規性
そもそも取り組んでいるタスク「芸術的なテキストの認識」が、これまで取り組まれていなかったものの、重要な課題。
また、芸術的なテキストであってもコーナーポイントは頑健である点に注目して、独自の「コーナークエリクロスアテンション機構」を提案。
結果
芸術的テキスト認識において、既存の手法を大きく上回った。
また、STR(Scene Text Recognition)ベンチマークでの検証結果も、いくつかの指標でSOTAを上回った。
その他(なぜ通ったか?等)
コーナーベースのアーキテクチャが、文字認識の頑健性を大きく高めることがわかった。
芸術的なテキスト以外にも、困難な認識タスクは様々あると思うので、他のタスクへの応用も期待される。
- …
- …