#297
summarized by : Atsuki Osanai
XYLayoutLM: Towards Layout-Aware Multimodal Networks for Visually-Rich Document Understanding

どんな論文か?

Visual/Text/Layout情報を利用したDocument Understanding。ベースラインであるLayoutXLMに対して、単語の読み順精度、および単語検出の位置ズレに対するロバスト性を向上させた。また、Layout情報の埋め込みにConditional Position Encodingを適用し、学習時とは異なるサイズの画像・テキストにも対応できるように改善した。
placeholder

新規性

実問題で課題となり得るテキストの検出位置ズレに対応したdata augmentationを行い、文章間の関連性の推定タスク(Relation Extraction; RE)で大幅な精度向上を達成した点

結果

FUNSD/XDUNデータセットにおけるEntity Recognition(SER)/Relation Extraction(RE)タスクにおいて、XYLayoutXLM(ベースライン)を上回りSOTAを達成。

その他(なぜ通ったか?等)