summarized by : Shintaro Yamamoto
Ron Litman, Oron Anschel, Shahar Tsiper, Roee Litman, Shai Mazor, R. Manmatha
画像中に映っているテキストを認識するScene Text Recognition (STR)に関する研究。従来手法と比べて、BiLSTMを多層に重ねた構造となっている。
学習時に、各層で予測をしてlossに加える構造を構築した。テスト時には、最後の層の出力を予測結果とする。
これまでのSOTAと比較して3.7%の精度向上に成功。