#108
summarized by : Yue Qiu
Learning to Generate Grounded Visual Captions without Localization Supervision

どんな論文か?

Image captioningタスクでは物体の位置と位置関係の認識が重要.従来手法ではAttention構造で物体のGroundingの学習を行っているが,実際に学習しにくいところがある.この研究でまずDecoderで物体を生成し,そして物体の関連画像領域を推測し,画像領域の情報からSentenceをリコンストラクション.これによりGrounding能力を大幅に向上.
placeholder

新規性

①新しいGrounded captioning手法を提案.Wordを条件に物体をローカライズし,ローカライズの領域からセンテンスをリコンストラクション,これによりSelf-supervisedでGrounding可能;②Image captioningとVideo captioningの2つのタスクで同時にSOTAなGrounding精度と高いSentence精度を達成.

結果

提案手法をImage captioningとVideo captioningの二つのタスクで実験を行った.①この二つのタスクでSOTAなGrounding精度を達成;②Grounding精度を大幅向上しながら,Image captioningとVideo captioningの生成精度(従来のCaptioning系の評価指標)も高い.

その他(なぜ通ったか?等)

①同時にCaptioningと検出できて,信頼性と実用性が高い;②論文の図と説明が綺麗かつ理解しやすい.