LayoutLMv2: Multi-modal Pre-training for Visually-rich Document Understanding

#131 #acl2021

summarized by : Yoshiki Kubotani

Yang Xu, Yiheng Xu, Tengchao Lv, Lei Cui, Furu Wei, Guoxin Wang, Yijuan Lu, Dinei Florencio, Cha Zhang, Wanxiang Che, Min Zhang, Lidong Zhou

概要

請求書やPDFなど画像的側面が強い文書の理解には、マルチモーダルな関係を捉えるtwo-stream型Transformerが用いられることが多い。こうしたモデルでは、一般的にfine-turingの段階で教師あり学習を行うことでモダリティの関係性を考慮していた。本研究では、事前学習に新たなタスクを導入することで、より広範かつ正確に両関係を捉えられると主張している。

新規性

事前学習として、masked visual-language modeling taskの他にtext-image alignmentとtext-image matchingのタスクを導入した。layoutの並進普遍性を捉えるため、self-attentionの計算時に各bboxの相対位置を考慮したスコアを導入した。

結果

事前学習にはLayoutLMと同様にIIT-CDIPを使用。6つのデータセットを用いて3つの下流タスク（固有表現抽出、文書画像分類、VQA）を評価した。各タスクにおいて、BERT, UniLMv2, LayoutLMと比較し、全てにおいて最も良い性能をマークした。

このページで利用されている画像は論文から引用しています．