PhraseCut: Language-Based Image Segmentation in the Wild

#172

summarized by : Shun.ishizaka

Chenyun Wu, Zhe Lin, Scott Cohen, Trung Bui, Subhransu Maji

どんな論文か？

VQAのAをSegmentationの形にしたDatasetを構築．Visual Genomeのアノテーション情報を利用してアノテーション対象とするフレーズおよびsegmentationのアノテーションをする．また，フレーズ+画像から属性・カテゴリ・関係性を予測することでVQA+SegmentationをするHULANetを提案．

新規性

・multi-instanceかつsegmentationのついたものは初．カテゴリの広さが売り・既存手法では低頻度なカテゴリ・属性によって性能が大きく下がる→頻繁に出てくるカテゴリや属性の予測を利用して低頻度ケースに対応

結果

既存のVQA+segmentationのdatasetと比較して画像数は3-4倍，instanceが4-6倍，カテゴリが39倍弱と，広範なシーンに対応．提案したHULANetは構築したdatasetに対して既存手法よりも高精度(mean-IoU, cumulative-IoU)．

その他（なぜ通ったか？等）

Flickr30EntitiesやGoogle Referring Expressionsと比較してより難しいタスクになっている(そうなるようにVisual Genomeの情報をうまく使ってアノテーションしている)．ただし高頻度なものから低頻度なものを予測できてしまう(たとえばpoliceman→manに置き換えて推測できる)ので，datasetの取り方はもう一工夫必要だと著者は主張している．

このページで利用されている画像は論文から引用しています．