summarized by : Yasuhide Miura
Liangli Zhen, Peng Hu, Xu Wang, Dezhong Peng
画像とテキストで相互に検索を行うCross-Modal Retrievalを教師ありで行う手法
画像/テキストからCNNで特徴抽出を行い、最終層の重みを共有することで似たデータ同士が空間上で近い点に変換されることを期待する。また同じラベルのデータが共通の空間で近いところに集まるようにクラス分類のロスも加える
NUS-WIDEやXMediaNetといったデータセットで検索精度をMAPで評価し、既存手法を上回る
シンプルなロス構成なため