Auto-Encoding Scene Graphs for Image Captioning

#931

summarized by : Anonymous

Xu Yang, Kaihua Tang, Hanwang Zhang, Jianfei Cai

言語誘導バイアスを組み込むことでより人間的な字幕生成ができる、エンコーダ - デコーダ型の画像キャプションフレームワークであるシーングラフオートエンコーダ（SGAE）の提案。

シーングラフは形容詞と関係ノードを結んで文や画像の構造を表現する有向グラフ。テキスト領域で辞書の学習にSGAEを用いると、ビジョン言語領域で辞書を共有でき、エンコーダデコーダに帰納的バイアスが反映される。

MSCOCOのImage Captioningのベンチマークで検証。SGAEのシングルモデルはKarpathy分割で127.8 CIDEr-D(SOTA)を達成し、公式サーバー上の125.5 CIDEr-D（c40）でアンサンブルモデルに対しても競争力がある結果を得た。

このページで利用されている画像は論文から引用しています．