#637
summarized by : Yue Qiu
Learn to Augment: Joint Data Augmentation and Network Optimization for Text Recognition

どんな論文か?

Scene text recognitionタスクのためのText image augmentationの手法を提案.提案手法はまずcharactersの幾何情報をベースにfiducial pointsを定義、AgentネットワークがRecognitionネットワークの出力から学習し、fiducial pointsをコントロールことによりTextに対してFlexibleな変化を加える.
placeholder

新規性

①従来Scene Text分野ではRotation、Scalingなどのデータ拡張が用いられ、この文章でSequence-like charactersの幾何情報をベースにし、characterごとに異なる変化を加えられるaugmentation手法を提案.②Data augmentationとRecognitionネットワーク同時に学習できるフレームワークを提案.

結果

Regular scene text, irregular scene text, handwritten textを含む複数のBenchmarkデータセットで提案フレームワークが優位性を示した.

その他(なぜ通ったか?等)

①提案のフレームワークはほかのAugmentation systemsに適応可能であり,ほかの手法やタスクに活用性が高い.②提案のLearnable Augmentation手法はtext recognitionタスクだけではなく,ほかのData augmentationが必要なタスク(物体検出、認識など)にも応用可能性がある.