summarized by : Shintaro Yamamoto
Kai Li, Curtis Wigington, Chris Tensmeyer, Handong Zhao, Nikolaos Barmpalios, Vlad I. Morariu, Varun Manjunatha, Tong Sun, Yun Fu
文書画像からテキストや図の位置の推定手法に関する研究。文書データは、フォーマットや言語などドメインによって見た目が大きく異なる。ドメイン適応によって、異なるドメインに対して適用可能な物体検出器を学習する。
ドメイン適応のために3つのモジュールを構築。1:入力画像がソースとターゲットどちらのドメインのものかの識別,2:前景領域がどちらのドメインのものかの識別,3:PDFより生成されるマスクの予測の3つを学習に加える。
提案手法により、ベースライン手法と比較して精度向上を実現。また、同様のフレームワークを実画像の物体検出にも適用可能。