- …
- …
#483
summarized by : Anonymous
どんな論文か?
本論文がCLIPのイメージエンコーダーについて、画像に書かれたテキストの情報と視覚情報をどう扱うか調査。
テキスト情報の理解能力の有無による、2つのモデル「learn to spell」と「forget to spell」を作成。
実験の結果によると、テキスト情報と視覚情報をきれいに分離できることが分かった。
応用として、テキストアーチファクトの除去、タイポグラフィ攻撃に対する防御を実証。
新規性
2つのモデル「learn to spell」と「forget to spell」を作成し、
テキストアーチファクトの除去やタイポグラフィ攻撃に対する防御が可能
結果
実験の結果によると、テキスト情報と視覚情報をきれいに分離できることが分かった。
応用として、テキストアーチファクトの除去、タイポグラフィ攻撃に対する防御を実証。
その他(なぜ通ったか?等)
参考資料)https://qiita.com/exp/items/1296d83b38f7c9baeb09
- …
- …