Are Vision Transformers Robust to Patch Perturbations?

#196

summarized by : Shuya Takahashi（髙橋秀弥）

Jindong Gu; Volker Tresp; Yao Qin

パッチ単位の摂動に対するVitの頑健性を検証している。

既存研究では、画像全体に自然な乱れや敵対的な摂動がある場合のViTとCNNの頑健性が主に研究されている。対して、この論文ではパッチ単位で自然な乱れや敵対的な摂動がある場合のViTの頑健性をCNNと比較して検証している。

ViTはResNetより、自然なパッチの破損には強く、敵対的な摂動には弱いことを示している。また、ViTは自然な破損があるパッチを無視するが、敵対的な摂動があるパッチに注目してしまっていることをアテンションマップを用いて示している。

このページで利用されている画像は論文から引用しています．