- …
- …
#86
summarized by : Jumpei Suzuki
どんな論文か?
Visual question answering(VQA)のbenchmarkであるGQAのtest dataを答えの種類によってfrequentなものとinfrequentなものに分け、test data全体で評価するよりinfrequentなもので評価する方が推論応力の測定に適していることを示す。
新規性
statistical biasを使えないように、infrequentな問をtestに使うところ。
結果
既存のVQAのSOTAモデルたちが、rareな質問を集めるほど性能がどんどん下がる。また、既存のbias-reduction methodsは、infrequentな問いに対する性能を上げることはできなかった。
その他(なぜ通ったか?等)
- …
- …