XYLayoutLM: Towards Layout-Aware Multimodal Networks for Visually-Rich Document Understanding

#297

summarized by : Atsuki Osanai

Zhangxuan Gu; Changhua Meng; Ke Wang; Jun Lan; Weiqiang Wang; Ming Gu; Liqing Zhang

どんな論文か？

Visual/Text/Layout情報を利用したDocument Understanding。ベースラインであるLayoutXLMに対して、単語の読み順精度、および単語検出の位置ズレに対するロバスト性を向上させた。また、Layout情報の埋め込みにConditional Position Encodingを適用し、学習時とは異なるサイズの画像・テキストにも対応できるように改善した。

新規性

実問題で課題となり得るテキストの検出位置ズレに対応したdata augmentationを行い、文章間の関連性の推定タスク(Relation Extraction; RE)で大幅な精度向上を達成した点

結果

FUNSD/XDUNデータセットにおけるEntity Recognition(SER)/Relation Extraction(RE)タスクにおいて、XYLayoutXLM(ベースライン)を上回りSOTAを達成。

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．