#324
summarized by : Shintaro Yamamoto
Scene Text Retrieval via Joint Text Detection and Similarity Learning

どんな論文か?

画像中の看板などに写っているテキスト(scene text)を検索するscene text retrievalに関する研究.例えば,googleという単語をクエリとして入力するとgoogleという単語が映っている画像を検索するというタスクを扱う.
placeholder

新規性

画像からテキストを検出するモジュールと,検出されたテキストとクエリの単語間の類似度を測るモジュールを1つのネットワークとして構築することで,end-to-endの学習を可能に.検出テキストとクエリ間の類似度の分布には偏りがあるため,単語のaugmentationを提案.また,中国語のデータセットを提案.

結果

従来データセット,提案データセットいずれにおいてもmAPのスコアが従来手法を上回った.計算速度に関しては,従来データセットでは既存手法の10倍近くかかってしまう一方で,提案データセットにおいては既存手法より10倍速い.

その他(なぜ通ったか?等)

github: https://github.com/lanfeng4659/STR-TDSL