#483
summarized by : Anonymous
Disentangling Visual and Written Concepts in CLIP

どんな論文か?

本論文がCLIPのイメージエンコーダーについて、画像に書かれたテキストの情報と視覚情報をどう扱うか調査。 テキスト情報の理解能力の有無による、2つのモデル「learn to spell」と「forget to spell」を作成。 実験の結果によると、テキスト情報と視覚情報をきれいに分離できることが分かった。 応用として、テキストアーチファクトの除去、タイポグラフィ攻撃に対する防御を実証。

新規性

2つのモデル「learn to spell」と「forget to spell」を作成し、 テキストアーチファクトの除去やタイポグラフィ攻撃に対する防御が可能

結果

実験の結果によると、テキスト情報と視覚情報をきれいに分離できることが分かった。 応用として、テキストアーチファクトの除去、タイポグラフィ攻撃に対する防御を実証。

その他(なぜ通ったか?等)

参考資料)https://qiita.com/exp/items/1296d83b38f7c9baeb09