UTC: A Unified Transformer With Inter-Task Contrastive Learning for Visual Dialog

#85

summarized by : Takeru Endo

Cheng Chen; Zhenshan Tan; Qingrong Cheng; Xin Jiang; Qun Liu; Yudong Zhu; Xiaodong Gu

Visual Dialogタスクにおいて、回答のランク付けと回答の生成という二つのアプローチがあった。本研究では、これらを共同で学習する(Contrastive Learning)ことで、それぞれの回答の精度を向上させている。

二つのアプローチに対して共同で学習した研究はこれまでなかった。

識別タスクと生成タスクの両方において、既存手法の精度を上回った。

このページで利用されている画像は論文から引用しています．