- …
- …
#776
summarized by : QIUYUE
どんな論文か?
Textから画像を生成する手法を提案した.従来のGANsと比べ,提案手法はSequence-to-Sequenceベースで行う(LSTM for Text, convLSTM for Image).提案手法ステップbyステップでテキストとCurrent Scene Stateから物体、物体属性(位置、サイズ、アピアランスなど)を生成する.このプロセスにより提案手法が他の手法と比べ解釈性が高い.
新規性
従来のImage Generation from Text手法がGANsが良く用いられている.この文章ではGANを用いずに,マイナー修正を加えて従来のGAN手法より良いパフォーマンスを得られた.
結果
MS COCOのAbstract Scenes datasetで実験を行った.このデータセットにおいてはSOTAなObjectの精度/Recallまたは位置やポーズ推定結果などを得られた.Human評価実験で,従来の手法より良いはるかに良い点数を得られた.
その他(なぜ通ったか?等)
Step-by-stepで生成(要素をピックアップ)を行うので,GANsベースな手法よりは解釈性が高い. ただしGANsと予測モデルどっちが良いのかわからない.
- …
- …