- …
- …
#207
summarized by : Ryuichi nakahara
新規性
CLIPのゼロショット学習で画像から文章を生成する。CLIPの潜在空間を利用することで画像同士の演算から文章を生成することも可能。例えば 絵:「砂漠の白熊」-絵:「雪の白熊」=文章:「砂漠」という演算も可能。結果的に二つの絵の意味の違いを演算可能とした。
結果
COCOデータセットで、従来法(ClipCap, CLIP-VL, VinCVL)と比較して高い性能を示した。
その他(なぜ通ったか?等)
github公開あり: https://github. com/YoadTew/zero-shot-image-to-text.
画像からの言語生成だけでなく、二つの画像の意味の違いを演算する方法を、印象的な実例を用いて示せた点が大きい。
- …
- …