Deep Supervised Cross-Modal Retrieval

#121

summarized by : Yasuhide Miura

Liangli Zhen, Peng Hu, Xu Wang, Dezhong Peng

画像とテキストで相互に検索を行うCross-Modal Retrievalを教師ありで行う手法

画像/テキストからCNNで特徴抽出を行い、最終層の重みを共有することで似たデータ同士が空間上で近い点に変換されることを期待する。また同じラベルのデータが共通の空間で近いところに集まるようにクラス分類のロスも加える

NUS-WIDEやXMediaNetといったデータセットで検索精度をMAPで評価し、既存手法を上回る

シンプルなロス構成なため

このページで利用されている画像は論文から引用しています．