ViTAA: Visual-Textual Attributes Alignment in Person Search by Natural Language

#70

summarized by : Keisuke Kamahori

Zhe Wang, Zhiyuan Fang, Jun Wang, Yezhou Yang

自然言語を用いた画像中の人物検索のため、属性ごとに分けて学習するフレームワークを設計し、SOTA を達成した。

画像とテキスト中の情報を属性(人の体のどの部分についてか)ごとに対応させることで学習を行った。 Contrastive learning において、同じ特徴を持つ別の人の情報を教師なしで抽出し正解データとして扱う手法を提案した。

CUHK-PEDES データセットで SOTA を達成した。

https://github.com/Jarr0d/ViTAA

このページで利用されている画像は論文から引用しています．