#190
summarized by : yusuke.okimoto
Learning Cross-Modal Retrieval With Noisy Labels

どんな論文か?

文章→画像,もしくは画像→文章のクロスモーダル検索において,学習データのラベルノイズにロバストな学習の枠組みを提案.画像,文章を単位超球上に埋め込むように学習するが,その際に用いる二つの損失関数に工夫がある.1つ目は,データをクラスタリングし,各クラスへの所属度合の分布を算出してクロスエントロピーを計算する.2つ目は,埋め込まれた画像,文章の特徴量でcontrastive lossを計算.
placeholder

新規性

cross modal retrievalというタスクにおいて,学習データのノイズにロバストな学習法を提案した点.また,cross modalである点を上手く用いて,ノイズロバストな損失関数を提案した点.

結果

主要な4つのベンチマークにおいて,人工的にノイズを与えた場合(20%, 40%, 60%, 80%),画像→文章,文章→画像のいずれの場合でも既存手法のMAPを上回った.

その他(なぜ通ったか?等)

クラウドソーシングが原因となるノイズを問題としていたので,人工的なノイズだけでなく,クラウドソーシングのノイズに対してはどのぐらいロバストだったかも見てみたかった.