Human-Like Controllable Image Captioning With Verb-Specific Semantic Roles

#447

summarized by : Seitaro Shinagawa

Long Chen, Zhihong Jiang, Jun Xiao, Wei Liu

どんな論文か？

条件付き画像説明文生成において、生成条件をVerb-specific Semantic Roles (VSR；動詞と名詞や位置の副詞などの意味的役割）とする手法を提案。与えられたVSRに対応する画像特徴量を抽出するモジュールと、VSRの各エンティティをどの順番で生成するかを決めるsemantic structure planner (SSP)で構成される。色々な長さや粒度で文を生成可能。

新規性

条件付き画像生成における生成条件をVerb-specific Semantic Roles (VSR；動詞と名詞や位置の副詞などの意味的役割）として利用した点。

結果

既存の学習済みモデルを利用してVSRの情報を付与して利用。MSCOCO, Flicker３０Kデータセットにおいて、各種評価指標で既存手法を上回った。動詞がある場合と無い場合でも比較しており、動詞の存在は生成結果を制御するのに重要という結果。

その他（なぜ通ったか？等）

コードは以下で公開予定とのこと https://github.com/mad-red/VSR-guided-CIC

このページで利用されている画像は論文から引用しています．