#32
summarized by : Yoshiki Kubotani
BLT: Bidirectional Layout Transformer for Controllable Layout Generation

どんな論文か?

レイアウト生成においては、Transformerベースの手法は多彩かつ高品質な生成を可能にする一方で、配置する要素を逐次的に生成するという性質から、その自由度には縛りがあった。本研究では自然言語処理界隈で用いられている双方向なアテンション機構を導入することで、この欠点を改善した。単純に手法を適用するだけでは性能が低下したため、MASKの仕方に独自のサンプリング手法を取り入れたことが大きな貢献の一つ
placeholder

新規性

①BidirectionalなAttentionを導入することでnon-autoregressiveな生成を実現し、conditionalなレイアウトの生成を順序依存のなくかつ高速でできるようにした ②要素の持つ属性をいくつかのグループに分けて階層的にMASKサンプリングを行うことで、性能劣化なく上記の事項を達成した

結果

レイアウト生成でよく用いられるデータセット(RICO, PubLayNet, Magazineなど)を用いて既存の4つの手法と比較。指標には ①要素同士の重複度合い ②要素が揃えて並べられているかどうか ③要素同士の形状やサイズの類似度 ④レイアウトがgoodかbadかを二値分類するモデルを訓練し、その特徴量を用いて計算したFID の四つが採用され、Conditionalな生成でSoTAを達成

その他(なぜ通ったか?等)

Code: https://github.com/google-research/google-research/tree/master/layout-blt