#776
summarized by : QIUYUE
Text2Scene: Generating Compositional Scenes From Textual Descriptions

どんな論文か?

Textから画像を生成する手法を提案した.従来のGANsと比べ,提案手法はSequence-to-Sequenceベースで行う(LSTM for Text, convLSTM for Image).提案手法ステップbyステップでテキストとCurrent Scene Stateから物体、物体属性(位置、サイズ、アピアランスなど)を生成する.このプロセスにより提案手法が他の手法と比べ解釈性が高い.
placeholder

新規性

従来のImage Generation from Text手法がGANsが良く用いられている.この文章ではGANを用いずに,マイナー修正を加えて従来のGAN手法より良いパフォーマンスを得られた.

結果

MS COCOのAbstract Scenes datasetで実験を行った.このデータセットにおいてはSOTAなObjectの精度/Recallまたは位置やポーズ推定結果などを得られた.Human評価実験で,従来の手法より良いはるかに良い点数を得られた.

その他(なぜ通ったか?等)

Step-by-stepで生成(要素をピックアップ)を行うので,GANsベースな手法よりは解釈性が高い. ただしGANsと予測モデルどっちが良いのかわからない.