#334
summarized by : 飯田啄巳
Universal Litmus Patterns: Revealing Backdoor Attacks in CNNs

どんな論文か?

あらゆる場合のバックドア攻撃に対しても、そのモデルにバックドアが仕込まれているかどうかを測るベンチマーク手法を提案。いくつかの更新(学習)可能な入力であるUniversal Litmus Patterns(ULPs)をモデルに入力し、それらをプーリングした値を使って、そのモデルがクリーンかどうかを分類する。
placeholder

新規性

バックドア攻撃はクリーンなデータに対して振る舞いが変わらないので、そもそもそのモデルが汚染されているかを検知することが難しい。それをユニバーサルなトリガとなる画像を利用することで、検査時の計算コストは短く済むようにした。また、オリジナルの画像を必要としない点も評価できる。

結果

AUCスコアが、CIFAR10とMNISTではほぼ1、GTSRBでは0.96、Tiny-ImageNetでは0.94を達成。

その他(なぜ通ったか?等)