#931
summarized by : Anonymous
Auto-Encoding Scene Graphs for Image Captioning

どんな論文か?

言語誘導バイアスを組み込むことでより人間的な字幕生成ができる、エンコーダ - デコーダ型の画像キャプションフレームワークであるシーングラフオートエンコーダ(SGAE)の提案。
placeholder

新規性

シーングラフは形容詞と関係ノードを結んで文や画像の構造を表現する有向グラフ。テキスト領域で辞書の学習にSGAEを用いると、ビジョン言語領域で辞書を共有でき、エンコーダデコーダに帰納的バイアスが反映される。

結果

MSCOCOのImage Captioningのベンチマークで検証。SGAEのシングルモデルはKarpathy分割で127.8 CIDEr-D(SOTA)を達成し、公式サーバー上の125.5 CIDEr-D(c40)でアンサンブルモデルに対しても競争力がある結果を得た。

その他(なぜ通ったか?等)