summarized by : Keisuke Kamahori
Xiangxi Shi, Xu Yang, Jiuxiang Gu, Shafiq Joty, Jianfei Cai
画像間の違いを自然言語で説明するタスクにおいて、視点の変化による影響を取り除き意味的な違いのみを抽出するネットワークを構築し、SOTA を達成した。
2枚の画像の特徴を双方向的に比べることで、視点変化による違いを画像の内容の変化と区別するエンコーダの設計。また、意味的な変化を説明するキャプションを生成するための強化学習モジュールの設計。
Change Captioning の複数のベンチマーク(Spot-the-Diff と CLEVR-Change)で SOTA を達成した。