How Transferable Are Reasoning Patterns in VQA?

#193

summarized by : Seitaro Shinagawa

Corentin Kervadec, Théo Jaunet, Grigory Antipov, Moez Baccouche, Romain Vuillemot, Christian Wolf

どんな論文か？

画像についての質問に回答するVisual Question Answering (VQA)タスクにおいて、画像検出器の検出ミスなどに起因する画像の不確実性が性能に悪影響を及ぼすことを指摘した。最初にきれいなオラクルのアノテーション付きデータで訓練をしておくことで、attentionが狙い通りに機能することをattentionの分析から示した。

新規性

画像検出器の検出ミスなどに起因する画像の不確実性が性能に悪影響を及ぼすことを指摘した点が新しい。Transformerのattentionは高いaccuracyを得るために重要であり、そのためには事前学習の前にオラクルのアノテーション付きデータで学習させることで、attentionをある程度学習させておくことが重要であるという新たな知見を提供した。

結果

"Hopfield is all you need"で用いられた可視化手法を実装し、主にGQAデータセットでtiny-LXMERTの各層のheadのattentionを可視化して検証した。オラクルな場合は異なる質問に対応するheadやそのattentionのモードが分かれており、役割分担がなされていた。一方、画像入力がnoisyな場合はこのような傾向が見えにくい状態になっていることが分かった。

その他（なぜ通ったか？等）

クリーンなデータで最初に学習しておくのが重要というのは説得力のある知見となりそうである。可視化ツールのデモ：https://reasoningpatterns.github.io/ 可視化ツールのコード：https://github.com/reasoningpatterns/reasoningpatterns.github.io

このページで利用されている画像は論文から引用しています．