Text2Scene: Generating Compositional Scenes From Textual Descriptions

#776

summarized by : QIUYUE

Fuwen Tan, Song Feng, Vicente Ordonez

どんな論文か？

Textから画像を生成する手法を提案した．従来のGANsと比べ，提案手法はSequence-to-Sequenceベースで行う(LSTM for Text, convLSTM for Image)．提案手法ステップbyステップでテキストとCurrent Scene Stateから物体、物体属性（位置、サイズ、アピアランスなど）を生成する．このプロセスにより提案手法が他の手法と比べ解釈性が高い．

新規性

従来のImage Generation from Text手法がGANsが良く用いられている．この文章ではGANを用いずに，マイナー修正を加えて従来のGAN手法より良いパフォーマンスを得られた．

結果

MS COCOのAbstract Scenes datasetで実験を行った．このデータセットにおいてはSOTAなObjectの精度/Recallまたは位置やポーズ推定結果などを得られた．Human評価実験で，従来の手法より良いはるかに良い点数を得られた．

その他（なぜ通ったか？等）

Step-by-stepで生成(要素をピックアップ)を行うので，GANsベースな手法よりは解釈性が高い．ただしGANsと予測モデルどっちが良いのかわからない．

このページで利用されている画像は論文から引用しています．