Rethinking Text Segmentation: A Novel Dataset and a Text-Specific Refinement Approach

#376

summarized by : Ryoh Hayamizu

Xingqian Xu, Zhifei Zhang, Zhaowen Wang, Brian Price, Zhonghao Wang, Humphrey Shi

テキストセグメンテーションに関する課題においてフォントのバリエーションに富んだデータセットが存在していない．そこで本論文では様々なフォントを含んだ2024枚からなる大規模データセット「TextSeg」を提案．また，非凸の境界線や多様なテクスチャに適応するネットワーク「TexR-Net」を開発．

文字の認識という面で決まったフォント，テクスチャではなく，ロゴのような文字のデータセットを構築．ぼやけたテキストやストロークの長い文字は曖昧な境界や装飾を無視してテキストのコア領域をカバーする．また，ピクセルレベルで単語マスク，文字マスク，単語効果マスクがある．

複雑なフォントやロゴであってもセグメンテーション可能となった．

https://github.com/SHI-Labs/Rethinking-Text-Segmentation

このページで利用されている画像は論文から引用しています．