- …
- …
#176
summarized by : Hirokatsu Kataoka
新規性
巨大なデータセットや計算リソースがなくても、CLIPレベルの特徴抽出器ができることを示した、という点では貢献が大きい論文である。
結果
ImageNet(画像識別)や画像キャプション(MSCOCO/Flickr30k)によりCLIPやALIGNと比較。両者ともに同等以上の性能まで到達した。ImageNet-1k linear probingにおいては、CLIP 80.2 vs. ZeroVL 80.6という精度である。
その他(なぜ通ったか?等)
GitHub: https://github.com/zerovl/ZeroVL
- …
- …