Disentangling Visual and Written Concepts in CLIP

#483

summarized by : Anonymous

Joanna Materzyńska; Antonio Torralba; David Bau

どんな論文か？

本論文がCLIPのイメージエンコーダーについて、画像に書かれたテキストの情報と視覚情報をどう扱うか調査。テキスト情報の理解能力の有無による、２つのモデル「learn to spell」と「forget to spell」を作成。実験の結果によると、テキスト情報と視覚情報をきれいに分離できることが分かった。応用として、テキストアーチファクトの除去、タイポグラフィ攻撃に対する防御を実証。

新規性

２つのモデル「learn to spell」と「forget to spell」を作成し、テキストアーチファクトの除去やタイポグラフィ攻撃に対する防御が可能

結果

実験の結果によると、テキスト情報と視覚情報をきれいに分離できることが分かった。応用として、テキストアーチファクトの除去、タイポグラフィ攻撃に対する防御を実証。

その他（なぜ通ったか？等）

参考資料）https://qiita.com/exp/items/1296d83b38f7c9baeb09

このページで利用されている画像は論文から引用しています．