Scene Text Retrieval via Joint Text Detection and Similarity Learning

#324

summarized by : Shintaro Yamamoto

Hao Wang, Xiang Bai, Mingkun Yang, Shenggao Zhu, Jing Wang, Wenyu Liu

どんな論文か？

画像中の看板などに写っているテキスト(scene text)を検索するscene text retrievalに関する研究．例えば，googleという単語をクエリとして入力するとgoogleという単語が映っている画像を検索するというタスクを扱う．

新規性

画像からテキストを検出するモジュールと，検出されたテキストとクエリの単語間の類似度を測るモジュールを1つのネットワークとして構築することで，end-to-endの学習を可能に．検出テキストとクエリ間の類似度の分布には偏りがあるため，単語のaugmentationを提案．また，中国語のデータセットを提案．

結果

従来データセット，提案データセットいずれにおいてもmAPのスコアが従来手法を上回った．計算速度に関しては，従来データセットでは既存手法の10倍近くかかってしまう一方で，提案データセットにおいては既存手法より10倍速い．

その他（なぜ通ったか？等）

github: https://github.com/lanfeng4659/STR-TDSL

このページで利用されている画像は論文から引用しています．