#160
summarized by : Hirokatsu Kataoka
SLIP: Self-Supervision Meets Language-Image Pre-training

どんな論文か?

CLIPの言語-画像の表現能力を拡張するために自己教師あり学習を行い、学習をサポートする。CLIPの事前学習を実施したあとに自己教師あり学習によりモデルを再調整する。
placeholder

新規性

自己教師あり学習がCLIPの表現能力を拡張できることを示したこと。

結果

代表的なタスク:zero-shot transfer, linear classificationに対してSimCLR(自己教師あり学習)やCLIP(言語-画像表現学習)と比較する。結果は添付に示すようにCLIP/SimCLRを単体で用いるよりも精度として明らかに高いポイントまで到達することを明らかにした。

その他(なぜ通ったか?等)

アイディアとしてはCLIPを自己教師あり学習(SimCLR)で調整するという至ってシンプルながら、手法として細部まで調整されていて完成度が高いこと、精度が大きく向上していることが採択の要因として挙げられる。