TableFormer: Table Structure Understanding With Transformers

#79

summarized by : 岡本大和（LINE Computer Vision Lab）

Ahmed Nassar; Nikolaos Livathinos; Maksym Lysak; Peter Staar

どんな論文か？

テーブルデータを含むドキュメント画像を入力すると、テーブル構造を解析したうえで自動でデータ抽出してくれるモデルの実現を目指す。主なモチベーションはOCR抜きで上記を実現すること。そもそもドキュメントデータが電子化されてい場合は文字をOCRで読み取る必要はない（書かれている文字列は既知である）。OCRを抜ければ英語版OCRや日本語版OCRといった使い分けの煩雑さから解放されるメリットもある。

新規性

従来手法では「Image → (OCR) → Text Token」の変更をしながらテーブル構造を解析する場合が多かった。提案手法ではOCRを介さずに、box検出手法を駆使してセルを検出して、box同士の位置関係からテーブル構造を解析して出力している。

結果

従来よりも学習しやすいモデルであるにも関わらず、従来手法よりも高性能を達成している。ただ、繰り返すようだが、従来手法の性能を上回った点も偉大な結果だが、ハンドリングしやすいモデル提案の貢献が非常に大きいと考察している。

その他（なぜ通ったか？等）

研究のモチベーションと問題点の指摘が非常に現実的である点が魅力。また、OCRを含まないのでEnd-to-Endで学習しやすい点も魅力的である。このように問題の解法をシンプル化しつつ高性能を達成しているので、実用化を前進させる大きな貢献だと言える。

このページで利用されている画像は論文から引用しています．