#133
summarized by : Shintaro Yamamoto
Webly Supervised Knowledge Embedding Model for Visual Reasoning

どんな論文か?

Visual Reasoningのためのデータセットは、アノテータバイアスの発生などの問題が存在することから、大規模化が難しい。一方で、ラベルのノイズを含んだ画像の収集はweb上で簡単に行うことが可能である。人手によるアノテーションがされたclearnなデータと、web上のnoisyなデータを用いた学習手法を提案。
placeholder

新規性

知識ベースの特徴表現を獲得するネットワークを提案した。学習は、cleanなデータで学習するStage Ⅰとnoisyなデータで学習するStage Ⅱの2つより構成される。

結果

CLEVRとNLVRの2つのデータセットで実験を行い、精度向上を実現した。Webデータを利用しなかった場合でも、従来手法より精度が高い。

その他(なぜ通ったか?等)

CVの会議にしてはACLなど言語処理系の論文を多く引用している印象