summarized by : Keisuke Kamahori
Zhe Wang, Zhiyuan Fang, Jun Wang, Yezhou Yang
自然言語を用いた画像中の人物検索のため、属性ごとに分けて学習するフレームワークを設計し、SOTA を達成した。
画像とテキスト中の情報を属性(人の体のどの部分についてか)ごとに対応させることで学習を行った。
Contrastive learning において、同じ特徴を持つ別の人の情報を教師なしで抽出し正解データとして扱う手法を提案した。
CUHK-PEDES データセットで SOTA を達成した。
https://github.com/Jarr0d/ViTAA