#136
summarized by : 金城 忍
Multimodal Contrastive Training for Visual Representation Learning

どんな論文か?

対称学習を、同一モダリティ及び異なるモダリティ間に適応し、それぞれのモダリティの本質的なデータの特性を学習する一方で、モダリティ間の意味的に関連する情報も学習することで、視覚情報の学習の性能を改善

新規性

視覚情報に対する表現学習において、マルチモーダルな特徴量空間を利用する一方で、それぞれのモダリティ固有の潜在的な特徴量も学習するという点に新規性がある

結果

COCOで事前学習したResNet50を使用し、ImageNet-1Kでの評価において、キャプションを教師信号として使用した場合、既存手法であるVirTex、ICMLMより良い性能を達成

その他(なぜ通ったか?等)