#21
summarized by : yasud
LayoutTransformer: Scene Layout Generation With Conceptual and Spatial Diversity

どんな論文か?

SceneGraphをテキストとして受け取り、画像を返すT2Iのモデルを提案。モデルの構造はLayoutGeneration部と画像生成部に分かれている。
placeholder

新規性

既存研究では画像の操作が難しく、さらに「human-walks-dog」のtripletにおいては道の上を歩いてるはず、のような暗黙的な関係を表現できず、多様なレイアウトを生成できない課題をTransformerの仕組みを使って言語の形式で学習することで実現ができた

結果

COCO-StuffとVisualGenomeで評価。定量評価の指標には真のBboxとのmIOU、relationの正解率、FID、LPIPS metricを使った多様性スコアを利用し、FID以外でSoTA(FIDが一番いいモデルはその他の指標で少し落ちている)

その他(なぜ通ったか?等)

T2Iのモデルは基本的に出力される画像が歪んでいたりするが、それが少し解消されたようなイメージがした。