#118
summarized by : 岡本大和
A Multiplexed Network for End-to-End, Multilingual OCR

どんな論文か?

多言語対応OCRの実現を目指した論文。Single-Headでは新言語の追加や学習データを追加するときに性能維持しにくい点を課題視して、Multi-Headのモデルを設計した。
placeholder

新規性

文字領域の抽出、言語の認識、文字の認識など多機能なモデルにも関わらずEnd-To-Endで学習できるように、3段階の学習戦略とLOSS関数を提案した。

結果

テキスト検出と言語認識では概ね既存手法を上回る結果となった。ただし、肝心の文字認識では、ほとんどの手法を上回ったものの、SoTA手法(CRAFTS)には届かなかった。ただし、パラメータ数の差や学習データの有利不利、拡張性の観点から、提案手法が勝る面がある点を強調。

その他(なぜ通ったか?等)