#447
summarized by : Seitaro Shinagawa
Human-Like Controllable Image Captioning With Verb-Specific Semantic Roles

どんな論文か?

条件付き画像説明文生成において、生成条件をVerb-specific Semantic Roles (VSR;動詞と名詞や位置の副詞などの意味的役割)とする手法を提案。与えられたVSRに対応する画像特徴量を抽出するモジュールと、VSRの各エンティティをどの順番で生成するかを決めるsemantic structure planner (SSP)で構成される。色々な長さや粒度で文を生成可能。
placeholder

新規性

条件付き画像生成における生成条件をVerb-specific Semantic Roles (VSR;動詞と名詞や位置の副詞などの意味的役割)として利用した点。

結果

既存の学習済みモデルを利用してVSRの情報を付与して利用。MSCOCO, Flicker30Kデータセットにおいて、各種評価指標で既存手法を上回った。動詞がある場合と無い場合でも比較しており、動詞の存在は生成結果を制御するのに重要という結果。

その他(なぜ通ったか?等)

コードは以下で公開予定とのこと https://github.com/mad-red/VSR-guided-CIC