- …
- …
#35
summarized by : Tomoki Tanimura
どんな論文か?
既存のbounding boxによるアノテーションデータで学習されたモデルでは、任意の形の文章を検出することは難しい。そこで、文字単位の検出と文字間の領域推測を行うことで、任意の形のテキストを検出する手法”CRAFT”を提案。文字単位のアノテーションがされたデータセットがないので、ワードごとのアノテーション、合成データ、擬似ラベリングによる弱教師学習を行うことで、提案手法を実現した。
新規性
次のワード単位のbounding boxのアノテーションから、任意の形のテキストを検出できる枠組みを提案したこと。また、その中で、文字を意図的に合成した画像を作成し、文字の位置と文字間の位置を推定する学習し、並行してワードごとのアノテーションから文字と文字間を推定することで、弱教師あり学習として、実現した点。また、文字ごとのアノテーションがされたデータセットを作成した点も、初の試みである。
結果
任意の形のテキストが多く含まれるデータセットにおいて、大きな精度向上を達成したことに加え、通常のテキスト検出のデータセットにおいても、精度が向上されていることを6つのデータセットに渡って実験をこなうことで、示した。
その他(なぜ通ったか?等)
精度向上だけで終わらず、難易度の高いタスクに対して、あたらしい学習の枠組を提案したため。また、ここで作成されたデータセットによって、新らたなタスクが設定されうる点。
- …
- …