#526
summarized by : hayamizu ryo
M5Product: Self-Harmonized Contrastive Learning for E-Commercial Multi-Modal Pretraining

どんな論文か?

画像,テキスト,表,ビデオ,音声から構成されるマルチモーダル事前学習データセットM5Productを提供.また,異なるモダリティを統一的なモデルに統合する新しい事前学習フレームワークであるSelf-harmonized ContrAstive LEarning (SCALE) を提案.
placeholder

新規性

大規模で複雑なシナリオにおいて,データセットの規模と多様性が下流タスクにとって重要であり,異なるモダリティの相補的な効果が増大する.モダリティアライメント重みを学習することで,SCALEは補完的な情報を効果的に調整することでより良い精度の達成を可能とする.SCALEは他のベースラインよりも下流のタスクに対して優れた汎化性を持つ.

結果

M5ProductをSCALE(提案手法),BERT (BERT,VL-BERT,ViLBERT,VisualBERT),CLIP,UNITER,CAPTREで比較した結果,全てにおいて最高精度を達成.

その他(なぜ通ったか?等)

https://xiaodongsuper.github.io/M5Product_dataset/