- …
- …
#324
summarized by : Shintaro Yamamoto
どんな論文か?
画像中の看板などに写っているテキスト(scene text)を検索するscene text retrievalに関する研究.例えば,googleという単語をクエリとして入力するとgoogleという単語が映っている画像を検索するというタスクを扱う.
新規性
画像からテキストを検出するモジュールと,検出されたテキストとクエリの単語間の類似度を測るモジュールを1つのネットワークとして構築することで,end-to-endの学習を可能に.検出テキストとクエリ間の類似度の分布には偏りがあるため,単語のaugmentationを提案.また,中国語のデータセットを提案.
結果
従来データセット,提案データセットいずれにおいてもmAPのスコアが従来手法を上回った.計算速度に関しては,従来データセットでは既存手法の10倍近くかかってしまう一方で,提案データセットにおいては既存手法より10倍速い.
その他(なぜ通ったか?等)
github: https://github.com/lanfeng4659/STR-TDSL
- …
- …