#481
summarized by : Munetaka Minoguchi
Show, Control and Tell: A Framework for Generating Controllable and Grounded Captions

どんな論文か?

イメージキャプショニングタスクにおいて,生成するキャプションに操作性を与える論文.モデル(Attention, Langurage LSTM)に画像領域の制御信号を与えると,その信号の領域情報に基づいたキャプションを生成する.入力する領域情報を変更することで,同一の画像でも異なるキャプションを生成でき,キャプションの多様性を向上させることができる.
placeholder

新規性

従来の画像キャプショニングは,入力画像のどの部分に対して説明を行っているかなど,不鮮明でブラックボックスであると主張.説明する画像領域を制御することにより,様々な情景描写のキャプションを生成できる他,キャプショニングそのものの理解にも繋がる.

結果

Flickr30k EntitiesとCOCO Entities(COCOの拡張版)によって評価.キャプションの正確さや多様性の双方に関して高精度であることを立証.

その他(なぜ通ったか?等)

キャプションの制御という新たな試みかつ,キャプション自体のクオリティも高い.