#133
summarized by : Shintaro Yamamoto
SelfDoc: Self-Supervised Document Representation Learning

どんな論文か?

文書画像理解のための事前学習フレームワークを提案.文書を画像及びOCRで取得した言語情報として扱い,BERTベースのモデルを事前学習する.画像と言語を独立して扱った後に,2つのモダリティを結合するというモデルになっている.
placeholder

新規性

従来研究(LayoutLM)では単語レベルで言語情報を扱っていたのに対して,文書中でより意味のある要素(段落,見出し,図など)を扱うことでコンテキスト情報を考慮することを可能とする.また,事前学習の段階で画像と言語情報を組み合わせるマルチモーダルな特徴表現を実現する.

結果

ダウンストリームタスクとして,document entity recognition,document classification,document clusteringの3つのタスクを取り上げ,いずれのタスクにおいても従来法を上回る性能を確認した.

その他(なぜ通ったか?等)

事前学習モデルを公開してほしい