#70
summarized by : Keisuke Kamahori
ViTAA: Visual-Textual Attributes Alignment in Person Search by Natural Language

どんな論文か?

自然言語を用いた画像中の人物検索のため、属性ごとに分けて学習するフレームワークを設計し、SOTA を達成した。
placeholder

新規性

画像とテキスト中の情報を属性(人の体のどの部分についてか)ごとに対応させることで学習を行った。 Contrastive learning において、同じ特徴を持つ別の人の情報を教師なしで抽出し正解データとして扱う手法を提案した。

結果

CUHK-PEDES データセットで SOTA を達成した。

その他(なぜ通ったか?等)

https://github.com/Jarr0d/ViTAA