#245
summarized by : Keito Ishihara
MSCap: Multi-Style Image Captioning With Unpaired Stylized Text

どんな論文か?

image-captioningタスクにおいて、生成するキャプションのスタイルを制御する研究。通常のimage-captioningのモデル構造にキャプションの意味、スタイル、品質を学習するための三種類のモジュールを追加することで直接のスタイルのキャプションデータがなくとも学習を可能にした。
placeholder

新規性

まず通常のimage-captioningと同じように画像からテキストを生成し、生成テキストを入力画像のペアに翻訳するモデルによって正しい意味の キャプションの学習を行う。またテキストに対してスタイルを正しく判別するためのモデルを利用することで意図したようなスタイルの付与を、出力テキストが人間の手によるものか判別するモデルにより品質を学習する。 学習には敵対的学習を使用する。

結果

BLEU, METEOR, CIDErで生成テキストの意味の評価を、学習済みモデルを利用してスタイルの評価を、Perplexityで流暢さの評価を行った。 データセットにはFlickrStyle10K, SentiCap, MS COCO を使用した。

その他(なぜ通ったか?等)