summarized by : Shuya Takahashi(髙橋 秀弥)
Jindong Gu; Volker Tresp; Yao Qin
パッチ単位の摂動に対するVitの頑健性を検証している。
既存研究では、画像全体に自然な乱れや敵対的な摂動がある場合のViTとCNNの頑健性が主に研究されている。対して、この論文ではパッチ単位で自然な乱れや敵対的な摂動がある場合のViTの頑健性をCNNと比較して検証している。
ViTはResNetより、自然なパッチの破損には強く、敵対的な摂動には弱いことを示している。また、ViTは自然な破損があるパッチを無視するが、敵対的な摂動があるパッチに注目してしまっていることをアテンションマップを用いて示している。