#445
summarized by : Yue Qiu
More Grounded Image Captioning by Distilling Image-Text Matching Model

どんな論文か?

Image captioningタスクでのGrounding能力に着目し,従来のImage text matching手法SCANをImage captioningタスクと組み、SCANモデルでImage captioningタスクを弱監督(知識蒸留手法).SCANに対してPart-Of-Speech tagでNounだけに対してMatching scoreを更新,Grounding能力を高めた.
placeholder

新規性

①Image Captioningタスクにおいて知識蒸留を導入した.②従来のImage captioning手法のGrounding能力を高められるPOS-SCAN手法を提案.③Grounding能力を高められながら、word-region matching annotationが必要ない.

結果

Flickr30k Entities, MS-COCO KarpathyデータセットでPOS-SCANを適用することで,多種類の従来のImage captioning手法のGrounding能力を高めた(Attention accuracyが向上).

その他(なぜ通ったか?等)

信頼性が高いImage captioningを行うために,Groundingが重要.この文章で提案した手法でGrounding能力を高められる.また,従来のImage captioning手法に適応しやすい.