#223
summarized by : Hirokatsu Kataoka
Vision-Language Pre-Training for Boosting Scene Text Detectors

どんな論文か?

実環境中に記載されているテキストを検出する問題設定において、Vision-Languageの事前学習を提案。画像の照合学習(Contrastive Learning)、マスクテキストの穴埋め(Masked Language Modeling; MLM)、Word-in-Image Prediction(WIP)の3種の統合学習により事前学習を実施。
placeholder

新規性

事前学習にてクロスモーダルタスクを実施できる点が優れている。添付画像のように、従来では(a)合成データによるタスク、(b)画像入力・言語出力のEncoder-Decoderモデルを解かせてきたが、画像と言語のモダリティを同時に解かせる事前学習タスクを定義できた。

結果

ICDAR2015/2017/Total-Text/CTW1500/MSRA-TD500/TextOCRなど代表的な文字検出タスクにおいて検証、SAE/GNNetsなどベースラインと比較した場合にも優位性を実証した。さらに、SynthTextの利用により数%性能が向上することも明らかにした。

その他(なぜ通ったか?等)