Multimodal Contrastive Training for Visual Representation Learning

#136

summarized by : 金城忍

Xin Yuan, Zhe Lin, Jason Kuen, Jianming Zhang, Yilin Wang, Michael Maire, Ajinkya Kale, Baldo Faieta

対称学習を、同一モダリティ及び異なるモダリティ間に適応し、それぞれのモダリティの本質的なデータの特性を学習する一方で、モダリティ間の意味的に関連する情報も学習することで、視覚情報の学習の性能を改善

視覚情報に対する表現学習において、マルチモーダルな特徴量空間を利用する一方で、それぞれのモダリティ固有の潜在的な特徴量も学習するという点に新規性がある

COCOで事前学習したResNet50を使用し、ImageNet-1Kでの評価において、キャプションを教師信号として使用した場合、既存手法であるVirTex、ICMLMより良い性能を達成

このページで利用されている画像は論文から引用しています．