An End-to-End OCR Text Re-organization Sequence Learning for Rich-text Detail Image Comprehension

#133

summarized by : Keisuke Kamahori

Liangcheng Li, Feiyu Gao, Jiajun Bu, Yongpan Wang, Zhi Yu, Qi Zheng

商品の説明画像のような、複数の文章が複雑に配置している画像の内容を目の不自由な人に説明する際、単純に左上から順に読み取るような OCR は不十分である。そこで、graph convolutional network を用いて文章を並び替えるモデルを設計した。

テキスト認識における文章の並び替え問題を初めて提案した。画像中のテキストブロックをグラフの頂点とみなし、graph convolutional network と attention モデルを組み合わせて並び替えを行った。

提案手法はベースラインモデルよりも高い性能を示し、実際のユーザーに対するテストでも高い評価を得た。

このページで利用されている画像は論文から引用しています．