SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition

#636

summarized by : Yue Qiu

Zhi Qiao, Yu Zhou, Dongbao Yang, Yucan Zhou, Weiping Wang

どんな論文か？

従来のScene text recognition手法は画像blur,uneven illumination,incomplete charactersに対して弱い現状がある．著者たちは以上の問題点は従来のモデルはTextのGlobal情報を用いないことを原因と指摘し、画像からTextのGlobalなセマンティック情報を取得し，それによりEnhancedなEncoder-Decoder構造を提案．

新規性

①従来の手法がScene TextのLocal情報を用いて、Text全体に含まれるGlobal情報をうまく利用してこなかった．提案手法はこのことを発見し、Global semantic 情報を利用してDecodingプロセスをGuideする．②提案手法はLow qualityデータセットや、characterに欠損がある場合などでもロバスト性を示した．

結果

①従来のSOTAな手法ASTERを提案のフレームワークに取り入れ作ったモデルは複数の従来データセットでSOTAを達成．②前述のモデルは特にlow-qualityデータセット(例：ICDAR2015, SVT-Perspective)で優位性を示し、imcomplete charactersに対してのロバスト性を示した．

その他（なぜ通ったか？等）

①提案手法がシンプルで理解しやすい．画像からGlobal情報を取得し、それを用いてEncoder, Decoderの学習を補助；画像の全体/Global情報から欠損characterの予測を行うことがセンスある．②リアル環境で画像中のTextが完璧ではない場合が多く存在するので、提案手法の応用性が高い．

このページで利用されている画像は論文から引用しています．