#207
summarized by : Ryuichi nakahara
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic

どんな論文か?

CLIPのゼロショット学習で、NLPで有名になった「王-男+女=女王」のような意味論的演算を画像でも行うことを可能にした
placeholder

新規性

CLIPのゼロショット学習で画像から文章を生成する。CLIPの潜在空間を利用することで画像同士の演算から文章を生成することも可能。例えば 絵:「砂漠の白熊」-絵:「雪の白熊」=文章:「砂漠」という演算も可能。結果的に二つの絵の意味の違いを演算可能とした。

結果

COCOデータセットで、従来法(ClipCap, CLIP-VL, VinCVL)と比較して高い性能を示した。

その他(なぜ通ったか?等)

github公開あり:  https://github. com/YoadTew/zero-shot-image-to-text. 画像からの言語生成だけでなく、二つの画像の意味の違いを演算する方法を、印象的な実例を用いて示せた点が大きい。