Can Audio-Visual Integration Strengthen Robustness Under Multimodal Attacks?

#29

summarized by : Keita Goto

Yapeng Tian, Chenliang Xu

どんな論文か？

音声を用いたマルチモーダル動画認識モデルに対する敵対的攻撃について検証している。攻撃時には音声と映像の両方に敵対的摂動を加えることで、音声か映像のどちらかに敵対的摂動を加えたときよりも、認識精度を下げることができることを確認した。一方で、音声から得られた特徴と映像から得られる特徴のコサイン類似を下げるような損失関数を用いて学習することで、頑健性を向上することができた。

新規性

マルチモーダル学習においては、それぞれのモーダルから得られる特徴が似ないよう学習することが、認識精度と頑健性において重要であるということが示唆されている。

結果

MIT-MUSICとKinetics-Soundsの2つのデータセットに対して、音声と映像の両方に敵対的摂動を加えることで、音声か映像のどちらかに摂動を加えたときよりも、認識精度が低下することを確認した。防衛手法については、それぞれのモーダルから得られる特徴のコサイン類似度を下げるよう学習することで、頑健性を向上させることができた。

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．