Guanyu Cai, Jun Zhang, Xinyang Jiang, Yifei Gong, Lianghua He, Fufu Yu, Pai Peng, Xiaowei Guo, Feiyue Huang, Xing Sun
画像検索を対話的に行うタスクの提案.ユーザが与えたクエリに対して,エージェントがユーザに質問を繰り返すことで候補を絞っていくという問題設定になっている.
エージェントがユーザに確認の質問を行うことで,入力クエリが断片的な情報しか含まない場合でもユーザの意図する画像の検索を可能とする.また,このような問題設定では教師あり学習が難しいため,実際の対話データなしで学習する手法を提案.
Visual Genomeをベースとした新たなデータセットを構築し,提案フレームの検索性能が高いことを示した.