#86
summarized by : Jumpei Suzuki
Roses Are Red, Violets Are Blue… but Should VQA Expect Them To?

どんな論文か?

Visual question answering(VQA)のbenchmarkであるGQAのtest dataを答えの種類によってfrequentなものとinfrequentなものに分け、test data全体で評価するよりinfrequentなもので評価する方が推論応力の測定に適していることを示す。
placeholder

新規性

statistical biasを使えないように、infrequentな問をtestに使うところ。

結果

既存のVQAのSOTAモデルたちが、rareな質問を集めるほど性能がどんどん下がる。また、既存のbias-reduction methodsは、infrequentな問いに対する性能を上げることはできなかった。

その他(なぜ通ったか?等)