#172
summarized by : Shun.ishizaka
PhraseCut: Language-Based Image Segmentation in the Wild

どんな論文か?

VQAのAをSegmentationの形にしたDatasetを構築.Visual Genomeのアノテーション情報を利用してアノテーション対象とするフレーズおよびsegmentationのアノテーションをする.また,フレーズ+画像から属性・カテゴリ・関係性を予測することでVQA+SegmentationをするHULANetを提案.
placeholder

新規性

・multi-instanceかつsegmentationのついたものは初.カテゴリの広さが売り ・既存手法では低頻度なカテゴリ・属性によって性能が大きく下がる→頻繁に出てくるカテゴリや属性の予測を利用して低頻度ケースに対応

結果

既存のVQA+segmentationのdatasetと比較して画像数は3-4倍,instanceが4-6倍,カテゴリが39倍弱と,広範なシーンに対応. 提案したHULANetは構築したdatasetに対して既存手法よりも高精度(mean-IoU, cumulative-IoU).

その他(なぜ通ったか?等)

Flickr30EntitiesやGoogle Referring Expressionsと比較してより難しいタスクになっている(そうなるようにVisual Genomeの情報をうまく使ってアノテーションしている).ただし高頻度なものから低頻度なものを予測できてしまう(たとえばpoliceman→manに置き換えて推測できる)ので,datasetの取り方はもう一工夫必要だと著者は主張している.