summarized by : sobamchan
Knowledge Supports Visual Language Grounding: A Case Study on Colour Terms

概要

人間は,木は緑という知識を利用して,木を認識している.つまり色に関する知識が物の認識を助ける. これは視覚情報をbottom-up に処理したものと,知識情報を top-down に処理したものの両方を使っているということ. この論文ではこの人間の物体の認知のフレームワークを考慮して,物の色を推定するタスクを,視覚情報 (vision) とその単語情報 (language) の両方を使って解いた.
placeholder

新規性

これまでの色推定タスクに利用されていたモデルは,視覚情報のみ利用していたが,単語の情報 (GloVe embedding) も利用した.

結果

画像中のオブジェクトとの色を推定するタスクで,ベースラインである視覚情報のみを利用するモデルの性能を大きく上回った. また,ちょっと変わった色の推定もうまくできるようになった.