Explaining Classifiers Using Adversarial Perturbations on the Perceptual Ball

#80

summarized by : Tasuku KINJO

Andrew Elliott, Stephen Law, Chris Russell

どんな論文か？

深層学習モデルについて人間が知覚できない極小なノイズを画像に加えるだけで分類を阻害するAdversarial Perturbationsを、分類の反例によって説明を行うCounterfactual Explanationsに応用する。学習における急激な勾配を避けるように正則化することで、より意味のあるPerturbationsを生成する。

新規性

Adversarial Perturbationsを加える前後の画像の差分とそれら推論結果との損失を知覚的損失と呼び、知覚的損失を用いて正則化を行うことで、モデルのロバスト性を向上する

結果

Weak Localization Protocol、Insertion/Deletion Game、Pointing Gameの３つの手法で評価を行い、いずれも優れた結果を示した

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．