- …
- …
#636
summarized by : Yue Qiu
どんな論文か?
従来のScene text recognition手法は画像blur,uneven illumination,incomplete charactersに対して弱い現状がある.著者たちは以上の問題点は従来のモデルはTextのGlobal情報を用いないことを原因と指摘し、画像からTextのGlobalなセマンティック情報を取得し,それによりEnhancedなEncoder-Decoder構造を提案.
新規性
①従来の手法がScene TextのLocal情報を用いて、Text全体に含まれるGlobal情報をうまく利用してこなかった.提案手法はこのことを発見し、Global semantic 情報を利用してDecodingプロセスをGuideする.②提案手法はLow qualityデータセットや、characterに欠損がある場合などでもロバスト性を示した.
結果
①従来のSOTAな手法ASTERを提案のフレームワークに取り入れ作ったモデルは複数の従来データセットでSOTAを達成.②前述のモデルは特にlow-qualityデータセット(例:ICDAR2015, SVT-Perspective)で優位性を示し、imcomplete charactersに対してのロバスト性を示した.
その他(なぜ通ったか?等)
①提案手法がシンプルで理解しやすい.画像からGlobal情報を取得し、それを用いてEncoder, Decoderの学習を補助;画像の全体/Global情報から欠損characterの予測を行うことがセンスある.②リアル環境で画像中のTextが完璧ではない場合が多く存在するので、提案手法の応用性が高い.
- …
- …