summarized by : Yoshiki Kubotani
LayoutLMv2: Multi-modal Pre-training for Visually-rich Document Understanding

概要

請求書やPDFなど画像的側面が強い文書の理解には、マルチモーダルな関係を捉えるtwo-stream型Transformerが用いられることが多い。こうしたモデルでは、一般的にfine-turingの段階で教師あり学習を行うことでモダリティの関係性を考慮していた。本研究では、事前学習に新たなタスクを導入することで、より広範かつ正確に両関係を捉えられると主張している。
placeholder

新規性

事前学習として、masked visual-language modeling taskの他にtext-image alignmentとtext-image matchingのタスクを導入した。layoutの並進普遍性を捉えるため、self-attentionの計算時に各bboxの相対位置を考慮したスコアを導入した。

結果

事前学習にはLayoutLMと同様にIIT-CDIPを使用。6つのデータセットを用いて3つの下流タスク(固有表現抽出、文書画像分類、VQA)を評価した。各タスクにおいて、BERT, UniLMv2, LayoutLMと比較し、全てにおいて最も良い性能をマークした。