#133
summarized by : Keisuke Kamahori
An End-to-End OCR Text Re-organization Sequence Learning for Rich-text Detail Image Comprehension

どんな論文か?

商品の説明画像のような、複数の文章が複雑に配置している画像の内容を目の不自由な人に説明する際、単純に左上から順に読み取るような OCR は不十分である。そこで、graph convolutional network を用いて文章を並び替えるモデルを設計した。
placeholder

新規性

テキスト認識における文章の並び替え問題を初めて提案した。画像中のテキストブロックをグラフの頂点とみなし、graph convolutional network と attention モデルを組み合わせて並び替えを行った。

結果

提案手法はベースラインモデルよりも高い性能を示し、実際のユーザーに対するテストでも高い評価を得た。

その他(なぜ通ったか?等)