Multi-Task Collaborative Network for Joint Referring Expression Comprehension and Segmentation

#182

summarized by : Shintaro Yamamoto

Gen Luo, Yiyi Zhou, Xiaoshuai Sun, Liujuan Cao, Chenglin Wu, Cheng Deng, Rongrong Ji

どんな論文か？

Referring expression comprehension (REC)とsegmentation (RES)は、出力がbounding boxかsegmentationかが違うだけであり、互いに関係しているタスクと言える。現状は別々のタスクとして扱われるため、2つのタスクの予測結果が矛盾してしまうということが起こりうる。2つのタスクを同時に扱う、マルチタスク学習を提案。

新規性

Consistency Energy Maximization (CEM)とAdaptive Soft Non-Lacated Supression (ASNLS)の2つのロスを提案。CEMは、RECとRESが画像中の同じ領域に注目するように最適化するロスである。ASNLSは、RECで予測したbounding boxに基づいて、RESの領域をsupressionする。

結果

RefCOCO, RefCOCO+, RefCOCOgの3つのデータセットで実験を行い、RECとRES両方のタスクがSOTAを更新した。

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．