- …
- …
#172
summarized by : Shun.ishizaka
どんな論文か?
VQAのAをSegmentationの形にしたDatasetを構築.Visual Genomeのアノテーション情報を利用してアノテーション対象とするフレーズおよびsegmentationのアノテーションをする.また,フレーズ+画像から属性・カテゴリ・関係性を予測することでVQA+SegmentationをするHULANetを提案.
新規性
・multi-instanceかつsegmentationのついたものは初.カテゴリの広さが売り
・既存手法では低頻度なカテゴリ・属性によって性能が大きく下がる→頻繁に出てくるカテゴリや属性の予測を利用して低頻度ケースに対応
結果
既存のVQA+segmentationのdatasetと比較して画像数は3-4倍,instanceが4-6倍,カテゴリが39倍弱と,広範なシーンに対応.
提案したHULANetは構築したdatasetに対して既存手法よりも高精度(mean-IoU, cumulative-IoU).
その他(なぜ通ったか?等)
Flickr30EntitiesやGoogle Referring Expressionsと比較してより難しいタスクになっている(そうなるようにVisual Genomeの情報をうまく使ってアノテーションしている).ただし高頻度なものから低頻度なものを予測できてしまう(たとえばpoliceman→manに置き換えて推測できる)ので,datasetの取り方はもう一工夫必要だと著者は主張している.
- …
- …