SwapMix: Diagnosing and Regularizing the Over-Reliance on Visual Context in Visual Question Answering

#126

summarized by : QIUYUE

Vipul Gupta; Zhuowan Li; Adam Kortylewski; Chenyu Zhang; Yingwei Li; Alan Yuille

どんな論文か？

VQA手法があらゆるPertubanceに対してロバスト性が低いと言われている。この文章で、VQAモデルがVisual Conentに対しての依頼性に着目して、新たなPertubance設定と既存VQA手法の分析を行った。具体的に、画像中に解答に直接関係しない物体の特徴を他の物体に入れ替えることで、VQAの解答の一致性を評価した。

新規性

新たなVQA手法のロバスト性の評価手法を提案し、Visual Contentの内容入れ替えに対してのロバスト性を評価可能にした。更に、SOTAな手法でも提案のPertubanceに対して弱い傾向も明らかにした。

結果

提案のPertubanceを行うことで、既存のSOTAのVQA手法が最大45％の質問で異なった解答を出した、Pertubanceに弱い傾向を実験で示した。また、学習段階で提案のPertubanceをデータ拡張として使った場合、このPertubanceにロバスト性を向上できる結果も示した。

その他（なぜ通ったか？等）

他に類似した研究、いくつかあったような気もする。物体特徴量の質の問題の可能性が残っていて、それが全体的な入力を破壊し、モデルが上手く回答できなくなったかもしれません。提案手法をData augmentationとして使うことで、GQAデータセットで5％の精度向上が強かった。

このページで利用されている画像は論文から引用しています．