ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic

#207

summarized by : Ryuichi nakahara

Yoad Tewel; Yoav Shalev; Idan Schwartz; Lior Wolf

CLIPのゼロショット学習で、NLPで有名になった「王-男＋女＝女王」のような意味論的演算を画像でも行うことを可能にした

CLIPのゼロショット学習で画像から文章を生成する。CLIPの潜在空間を利用することで画像同士の演算から文章を生成することも可能。例えば絵：「砂漠の白熊」－絵：「雪の白熊」＝文章：「砂漠」という演算も可能。結果的に二つの絵の意味の違いを演算可能とした。

COCOデータセットで、従来法(ClipCap, CLIP-VL, VinCVL）と比較して高い性能を示した。

github公開あり：　 https://github. com/YoadTew/zero-shot-image-to-text. 画像からの言語生成だけでなく、二つの画像の意味の違いを演算する方法を、印象的な実例を用いて示せた点が大きい。

このページで利用されている画像は論文から引用しています．