Contrastive Vision-Language Pre-training with Limited Resources

#176

summarized by : Hirokatsu Kataoka

Quan Cui; Boyan Zhou; Yu Guo; Weidong Yin; Hao Wu; Osamu Yoshie; Yubo Chen

CLIPよりも少ない事前学習データセット及び計算リソースの利用ながら、同等以上の性能まで到達する学習の枠組みを提案する。

巨大なデータセットや計算リソースがなくても、CLIPレベルの特徴抽出器ができることを示した、という点では貢献が大きい論文である。

ImageNet（画像識別）や画像キャプション（MSCOCO/Flickr30k）によりCLIPやALIGNと比較。両者ともに同等以上の性能まで到達した。ImageNet-1k linear probingにおいては、CLIP 80.2 vs. ZeroVL 80.6という精度である。

GitHub: https://github.com/zerovl/ZeroVL

このページで利用されている画像は論文から引用しています．