#182
summarized by : Shintaro Yamamoto
Multi-Task Collaborative Network for Joint Referring Expression Comprehension and Segmentation

どんな論文か?

Referring expression comprehension (REC)とsegmentation (RES)は、出力がbounding boxかsegmentationかが違うだけであり、互いに関係しているタスクと言える。現状は別々のタスクとして扱われるため、2つのタスクの予測結果が矛盾してしまうということが起こりうる。2つのタスクを同時に扱う、マルチタスク学習を提案。
placeholder

新規性

Consistency Energy Maximization (CEM)とAdaptive Soft Non-Lacated Supression (ASNLS)の2つのロスを提案。CEMは、RECとRESが画像中の同じ領域に注目するように最適化するロスである。ASNLSは、RECで予測したbounding boxに基づいて、RESの領域をsupressionする。

結果

RefCOCO, RefCOCO+, RefCOCOgの3つのデータセットで実験を行い、RECとRES両方のタスクがSOTAを更新した。

その他(なぜ通ったか?等)