#176
summarized by : Hirokatsu Kataoka
Contrastive Vision-Language Pre-training with Limited Resources

どんな論文か?

CLIPよりも少ない事前学習データセット及び計算リソースの利用ながら、同等以上の性能まで到達する学習の枠組みを提案する。
placeholder

新規性

巨大なデータセットや計算リソースがなくても、CLIPレベルの特徴抽出器ができることを示した、という点では貢献が大きい論文である。

結果

ImageNet(画像識別)や画像キャプション(MSCOCO/Flickr30k)によりCLIPやALIGNと比較。両者ともに同等以上の性能まで到達した。ImageNet-1k linear probingにおいては、CLIP 80.2 vs. ZeroVL 80.6という精度である。

その他(なぜ通ったか?等)

GitHub: https://github.com/zerovl/ZeroVL