ABCNet: Real-Time Scene Text Spotting With Adaptive Bezier-Curve Network

#510

summarized by : Masanori YANO

Yuliang Liu, Hao Chen, Chunhua Shen, Tong He, Lianwen Jin, Liangwei Wang

どんな論文か？

画像に含まれるテキスト領域の検出で、曲がったテキストに対応できるベジェ曲線を用いた手法。

新規性

バウンディングボックスごとに8個の頂点を回帰で検出するCNN-RNNを考え、その頂点4個ずつをベジェ曲線の制御点とすることで曲がったテキストを検出する手法を提案した。

結果

従来手法の多くと同じResNet-50のFeature Pyramid Networkベースとし、後段にBidirectional LSTMを含むDetectorを学習させ、F値及びFPSで評価を行い、マルチスケールでSOTAの結果。また、シングルスケールかつ入力する画像サイズの短辺を800から600に縮めるとF値は少し落ちるものの、マルチスケールの6.9fpsから22.8fpsに高速化。

その他（なぜ通ったか？等）

従来のセグメンテーションベースの手法より滑らかに検出でき、かつ速度面でも従来手法より高速であることを示したため通ったと考えられる。なお、データセットの形式が従来手法とは異なるため、既存データセットより少ない件数で、独自にアノテーション及びテキスト合成を行ったデータセットで評価を実施している。

このページで利用されている画像は論文から引用しています．