- …
- …
#133
summarized by : Shintaro Yamamoto
どんな論文か?
文書画像理解のための事前学習フレームワークを提案.文書を画像及びOCRで取得した言語情報として扱い,BERTベースのモデルを事前学習する.画像と言語を独立して扱った後に,2つのモダリティを結合するというモデルになっている.
新規性
従来研究(LayoutLM)では単語レベルで言語情報を扱っていたのに対して,文書中でより意味のある要素(段落,見出し,図など)を扱うことでコンテキスト情報を考慮することを可能とする.また,事前学習の段階で画像と言語情報を組み合わせるマルチモーダルな特徴表現を実現する.
結果
ダウンストリームタスクとして,document entity recognition,document classification,document clusteringの3つのタスクを取り上げ,いずれのタスクにおいても従来法を上回る性能を確認した.
その他(なぜ通ったか?等)
事前学習モデルを公開してほしい
- …
- …