#456
summarized by : Keito Ishihara
CLEVR-Ref+: Diagnosing Visual Reasoning With Referring Expressions

どんな論文か?

参照物体検出と参照画像セグメンテーションなどで現状使用されているデータセットには偏りがあることを発見し、それを補うための人工データセットCLEVR-Ref+を提案。
placeholder

新規性

画像質問応答の先行研究で、文章抜きの画像のみでそれなりに問題が解けてしまうなど現行の言語+画像のデータセットには問題があることは以前から報告されていた。それを補うためのデータセットとして提案されたCLEVRを参照文としての変更を加え、RefCOCOの語彙をもとにして実世界の表現に近づける処理を行った。

結果

既存のSOTA手法+新規に提案するIEP-RefについてCLEVR-Ref+で評価。提案手法が推論過程の分析に役立つことを示した。

その他(なぜ通ったか?等)