- …
- …
#297
summarized by : Atsuki Osanai
どんな論文か?
Visual/Text/Layout情報を利用したDocument Understanding。ベースラインであるLayoutXLMに対して、単語の読み順精度、および単語検出の位置ズレに対するロバスト性を向上させた。また、Layout情報の埋め込みにConditional Position Encodingを適用し、学習時とは異なるサイズの画像・テキストにも対応できるように改善した。
新規性
実問題で課題となり得るテキストの検出位置ズレに対応したdata augmentationを行い、文章間の関連性の推定タスク(Relation Extraction; RE)で大幅な精度向上を達成した点
結果
FUNSD/XDUNデータセットにおけるEntity Recognition(SER)/Relation Extraction(RE)タスクにおいて、XYLayoutXLM(ベースライン)を上回りSOTAを達成。
その他(なぜ通ったか?等)
- …
- …