LayoutTransformer: Scene Layout Generation With Conceptual and Spatial Diversity

#21

summarized by : yasud

Cheng-Fu Yang, Wan-Cyuan Fan, Fu-En Yang, Yu-Chiang Frank Wang

SceneGraphをテキストとして受け取り、画像を返すT2Iのモデルを提案。モデルの構造はLayoutGeneration部と画像生成部に分かれている。

既存研究では画像の操作が難しく、さらに「human-walks-dog」のtripletにおいては道の上を歩いてるはず、のような暗黙的な関係を表現できず、多様なレイアウトを生成できない課題をTransformerの仕組みを使って言語の形式で学習することで実現ができた

COCO-StuffとVisualGenomeで評価。定量評価の指標には真のBboxとのmIOU、relationの正解率、FID、LPIPS metricを使った多様性スコアを利用し、FID以外でSoTA(FIDが一番いいモデルはその他の指標で少し落ちている)

T2Iのモデルは基本的に出力される画像が歪んでいたりするが、それが少し解消されたようなイメージがした。

このページで利用されている画像は論文から引用しています．