Few Could Be Better Than All: Feature Sampling and Grouping for Scene Text Detection

#444

summarized by : Atsuki Osanai

Jingqun Tang; Wenqing Zhang; Hongye Liu; MingKun Yang; Bo Jiang; Guanglong Hu; Xiang Bai

どんな論文か？

テキスト検出向けにDETRを改善。スケールやアスペクト比が多様なテキスト検出に対応するために、本手法では重要度の高い特徴を選択する機構を導入。これにより背景領域の特徴の寄与を抑制し、テキスト検出に有効な特徴量を抽出できるようになった。またDETRのObject Queryへ入力するQuery数を減らせたことで、精度だけでなく処理速度、学習の収束速度も改善した。

新規性

テキスト領域を推定したConfidence Mapを用い、画像内の識別的な特徴ベクトルを選択する機構を提案。この機構には背景の外乱を抑制する効果がある。この選択された少数のQueryを用いることで、DETRに対し高精度かつ高効率なモデルを提案している。Transformerへの入力をサンプリングによって効率化するアイデアは別のタスクでも流用できそう。

結果

ICDAR2015, MSRA-TD500, Total-Text, CTW1500でSOTAに匹敵する精度を達成。また、ベースラインであるVanilla DETRに対して、精度、推論速度、学習速度を改善

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．