#166
summarized by : Keisuke Kamahori
Image-based table recognition: data, model, and evaluation

どんな論文か?

画像中の表を認識するタスクのため、表の画像とその HTML 表現をまとめたデータセット PubTabNet の作成、表認識を行う encoder-dual-decoder ネットワークの設計、新しい性能評価指標の設計を行った。

新規性

表の構造と各セルの内容を別々に出力する encoder-dual-decoder モデルにおいて、2つの decoder をあわせて学習することで複雑な表に対する頑健性を高めた。 また、新たな評価指標 TEDS は、表を木構造とみなし、木における編集距離をもとに計算される。

結果

TEDS は表の類似度をより正確に測れることがわかった。 提案手法を PubTabNet で学習させることで、TEDS において既存手法を上回る結果を出した。

その他(なぜ通ったか?等)

https://github.com/ibm-aur-nlp/PubTabNet