#625
summarized by : Yui Iioka (Keio University)
Robust Cross-Modal Representation Learning With Progressive Self-Distillation

どんな論文か?

CLIP[Alec+ 2021]は,様々なタスクにおいてその優位性を示している. しかし,大規模かつ信頼性の低いデータセットを利用しているために,頑健性が不十分である. 本論文では,noisyなデータセットにおいても頑健性を保つことを目的とする.
placeholder

新規性

CLIPでは,画像と言語の内積結果を単位行列に近づけようとしていた. 本稿では,2値ではないアテンションマップを作成していくことで表現力を向上させる. もともとの2値表現に対する知識蒸留を行うことで,完全性も高める.

結果

CLIPで普遍的に用いられるデータセットにおける定量的評価において,すべて同等以上の性能となった. また学習モデルを蒸留したモデルにおいても,様々な分野でCLIPを凌駕した. このことから,より頑健性が高められたことが示唆される.

その他(なぜ通ったか?等)

今回は割と駆け足で論文読みを行ったため,情報が不足している可能性がある.