Adaptive Cross-Modal Prototypes for Cross-Domain Visual-Language Retrieval

#115

summarized by : Shintaro Yamamoto

Yang Liu, Qingchao Chen, Samuel Albanie

画像や動画をクエリとしてテキストを検索する，visual-language retrievalにおけるdomain adaptationに関する研究．Sourceドメインでは画像とテキストのペアデータが存在するのに対して，targetドメインでは画像のみが与えられるという状況を扱う．

Sourceドメインのテキストとtargetドメインの画像(動画)をクラスタリングしておき，クラスタリング結果から得られる分布と2つのモダリティから得られる分布間のKL divergenceを最適化．また，ドメインシフトを防ぐための相互情報量最大化を導入．

画像と動画それぞれ3種類のデータセットで実験を行い，性能向上を確認した．

このページで利用されている画像は論文から引用しています．