Roses Are Red, Violets Are Blue… but Should VQA Expect Them To?

#86

summarized by : Jumpei Suzuki

Corentin Kervadec, Grigory Antipov, Moez Baccouche, Christian Wolf

どんな論文か？

Visual question answering(VQA)のbenchmarkであるGQAのtest dataを答えの種類によってfrequentなものとinfrequentなものに分け、test data全体で評価するよりinfrequentなもので評価する方が推論応力の測定に適していることを示す。

新規性

statistical biasを使えないように、infrequentな問をtestに使うところ。

結果

既存のVQAのSOTAモデルたちが、rareな質問を集めるほど性能がどんどん下がる。また、既存のbias-reduction methodsは、infrequentな問いに対する性能を上げることはできなかった。

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．