Character Region Awareness for Text Detection

#35

summarized by : Tomoki Tanimura

Youngmin Baek, Bado Lee, Dongyoon Han, Sangdoo Yun, Hwalsuk Lee

どんな論文か？

既存のbounding boxによるアノテーションデータで学習されたモデルでは、任意の形の文章を検出することは難しい。そこで、文字単位の検出と文字間の領域推測を行うことで、任意の形のテキストを検出する手法”CRAFT”を提案。文字単位のアノテーションがされたデータセットがないので、ワードごとのアノテーション、合成データ、擬似ラベリングによる弱教師学習を行うことで、提案手法を実現した。

新規性

次のワード単位のbounding boxのアノテーションから、任意の形のテキストを検出できる枠組みを提案したこと。また、その中で、文字を意図的に合成した画像を作成し、文字の位置と文字間の位置を推定する学習し、並行してワードごとのアノテーションから文字と文字間を推定することで、弱教師あり学習として、実現した点。また、文字ごとのアノテーションがされたデータセットを作成した点も、初の試みである。

結果

任意の形のテキストが多く含まれるデータセットにおいて、大きな精度向上を達成したことに加え、通常のテキスト検出のデータセットにおいても、精度が向上されていることを6つのデータセットに渡って実験をこなうことで、示した。

その他（なぜ通ったか？等）

精度向上だけで終わらず、難易度の高いタスクに対して、あたらしい学習の枠組を提案したため。また、ここで作成されたデータセットによって、新らたなタスクが設定されうる点。

このページで利用されている画像は論文から引用しています．