Adversarial Semantic Alignment for Improved Image Captions

#123

summarized by : Yasuhide Miura

Pierre Dognin, Igor Melnyk, Youssef Mroueh, Jerret Ross, Tom Sercu

どんな論文か？

Image Captioningモデルの学習にAdversarial Trainingを使った強化学習「Self-Critical Sequence Training(SCST)」とGumbel Straight-Through(ST)を使用する手法。また評価指標としてキャプションと画像のsemanticな類似度を測る手法を提案

新規性

Adversarial Trainingで学習するDiscriminatorを使いREINFORCEアルゴリズムによるベースライン推定を行うことで学習の安定化とサンプリング回数の削減を行うSCSTと、Generatorが離散的な生成を扱うことを緩和するGumbel STを用いてImage Captioningモデルを学習させるところ。またキャプションと画像との評価を新しく提案しているところ

結果

CIDErやMETEOR、新しく提案したSemantic Score評価しており、Semantic Scoreでは高い数値を記録

その他（なぜ通ったか？等）

従来のREINFORCEを使ったシーケンス生成にAdversarial Trainingを組み合わせて拡張したため

このページで利用されている画像は論文から引用しています．