#115
summarized by : Shintaro Yamamoto
Adaptive Cross-Modal Prototypes for Cross-Domain Visual-Language Retrieval

どんな論文か?

画像や動画をクエリとしてテキストを検索する,visual-language retrievalにおけるdomain adaptationに関する研究.Sourceドメインでは画像とテキストのペアデータが存在するのに対して,targetドメインでは画像のみが与えられるという状況を扱う.
placeholder

新規性

Sourceドメインのテキストとtargetドメインの画像(動画)をクラスタリングしておき,クラスタリング結果から得られる分布と2つのモダリティから得られる分布間のKL divergenceを最適化.また,ドメインシフトを防ぐための相互情報量最大化を導入.

結果

画像と動画それぞれ3種類のデータセットで実験を行い,性能向上を確認した.

その他(なぜ通ったか?等)