SelfDoc: Self-Supervised Document Representation Learning

#133

summarized by : Shintaro Yamamoto

Peizhao Li, Jiuxiang Gu, Jason Kuen, Vlad I. Morariu, Handong Zhao, Rajiv Jain, Varun Manjunatha, Hongfu Liu

文書画像理解のための事前学習フレームワークを提案．文書を画像及びOCRで取得した言語情報として扱い，BERTベースのモデルを事前学習する．画像と言語を独立して扱った後に，2つのモダリティを結合するというモデルになっている．

従来研究(LayoutLM)では単語レベルで言語情報を扱っていたのに対して，文書中でより意味のある要素(段落，見出し，図など)を扱うことでコンテキスト情報を考慮することを可能とする．また，事前学習の段階で画像と言語情報を組み合わせるマルチモーダルな特徴表現を実現する．

ダウンストリームタスクとして，document entity recognition，document classification，document clusteringの3つのタスクを取り上げ，いずれのタスクにおいても従来法を上回る性能を確認した．

事前学習モデルを公開してほしい

このページで利用されている画像は論文から引用しています．