#580
summarized by : Keita Goto
Universal Weighting Metric Learning for Cross-Modal Matching

どんな論文か?

従来のtriplet lossを用いたクロスモーダルマッチングでは、ネガティブサンプルはランダムに選択されていた。しかし、学習に最適なペアが選ばれないため、精度の低下や収束の遅さといった問題がある。そこで、ネガティブサンプルとポジティブサンプルに対して、その重みを求めるためのフレームワークを提案している。
placeholder

新規性

クロスモーダルマッチングにおけるtriplet lossを用いた際のhard exampleの探索を提案。

結果

Flicker30k, MS-COCO, ActivityNet, MSR-VTTを用いたImage-to-Text, Video-to-Textとそれぞれ逆方向の変換において、最高精度を達成している。

その他(なぜ通ったか?等)

Hard Example Mining自体は目新しくないが、クロスモーダルマッチングとTriplet Lossという設定でかつ十分な実験が行われている点で優れている。また、積極的に研究が進められているContrastive Lossなどにもつながる研究である。