- …
- …
#510
summarized by : Masanori YANO
新規性
バウンディングボックスごとに8個の頂点を回帰で検出するCNN-RNNを考え、その頂点4個ずつをベジェ曲線の制御点とすることで曲がったテキストを検出する手法を提案した。
結果
従来手法の多くと同じResNet-50のFeature Pyramid Networkベースとし、後段にBidirectional LSTMを含むDetectorを学習させ、F値及びFPSで評価を行い、マルチスケールでSOTAの結果。また、シングルスケールかつ入力する画像サイズの短辺を800から600に縮めるとF値は少し落ちるものの、マルチスケールの6.9fpsから22.8fpsに高速化。
その他(なぜ通ったか?等)
従来のセグメンテーションベースの手法より滑らかに検出でき、かつ速度面でも従来手法より高速であることを示したため通ったと考えられる。なお、データセットの形式が従来手法とは異なるため、既存データセットより少ない件数で、独自にアノテーション及びテキスト合成を行ったデータセットで評価を実施している。
- …
- …