Variational Transformer Networks for Layout Generation

#44

summarized by : yasud

Diego Martín Arroyo, Janis Postels, Federico Tombari

どんな論文か？

document layout generation systemを、追加のアノテーション等なしに、任意の(この研究では100まで)大きなサイズの要素にスケールさせるモデルを提案。追加の処理が必要ないため、文書のレイアウトやUIデザイン、部屋のレイアウトなどの多様なタスクに適用が可能

新規性

既存の探索アルゴリズムに依存するものでは生成されるサンプルの多様性が保証されない点などがあるが、これをTransformerをベースとしたVAEの構造でモデルを構成することで多様なレイアウトの生成ができた。また、self-attentionを用いることで追加のアノテーションを必要としない点も新しい。

結果

PubLayNet, RICO, SUN RGB-Dなどで、レイアウトの質と多様性の２つの基準で評価。具体的にはWasserstein距離でレイアウトが学習分布にどれだけ似ているか、DocSimでレイアウトの多様性を評価してSoTA

その他（なぜ通ったか？等）

生成できているレイアウトが整列されている点を確認すると、知覚的にとてもいいものが出ているとわかる(添付画像)。

このページで利用されている画像は論文から引用しています．