#302
summarized by : Atsuki Osanai
Towards Weakly-Supervised Text Spotting Using a Multi-Task Transformer

どんな論文か?

画像に含まれるテキストラベルのみから、テキストの検出・領域分割・認識の3タスクを弱教師あり学習(WSL)でE2Eに解く。学習は2段階になっており、事前学習として(3タスクの教師データが付与された)SynthTextデータセットで教師あり学習(SL)、Fine-tuneとしてSynthTextデータセットでのSLとテキストラベルのみが付与されたRealデータでのWSLをミックスした学習を行う。
placeholder

新規性

マルチタスク(検出・領域分割・認識)に適用可能なWSLスキームを構築した点。特にText Spottingへと拡張するために、Object DetectionのWSLで用いられるハンガリアンマッチングLossにテキスト認識のスコアも考慮した点が新規性。

結果

ICDAR15/Total-TextにおいてSOTAsにComparableな精度を達成

その他(なぜ通ったか?等)