Learning Cross-Modal Retrieval With Noisy Labels

#190

summarized by : yusuke.okimoto

Peng Hu, Xi Peng, Hongyuan Zhu, Liangli Zhen, Jie Lin

どんな論文か？

文章→画像，もしくは画像→文章のクロスモーダル検索において，学習データのラベルノイズにロバストな学習の枠組みを提案．画像，文章を単位超球上に埋め込むように学習するが，その際に用いる二つの損失関数に工夫がある．１つ目は，データをクラスタリングし，各クラスへの所属度合の分布を算出してクロスエントロピーを計算する．２つ目は，埋め込まれた画像，文章の特徴量でcontrastive lossを計算．

新規性

cross modal retrievalというタスクにおいて，学習データのノイズにロバストな学習法を提案した点．また，cross modalである点を上手く用いて，ノイズロバストな損失関数を提案した点．

結果

主要な4つのベンチマークにおいて，人工的にノイズを与えた場合（20%, 40%, 60%, 80%），画像→文章，文章→画像のいずれの場合でも既存手法のMAPを上回った．

その他（なぜ通ったか？等）

クラウドソーシングが原因となるノイズを問題としていたので，人工的なノイズだけでなく，クラウドソーシングのノイズに対してはどのぐらいロバストだったかも見てみたかった．

このページで利用されている画像は論文から引用しています．