- …
- …
#32
summarized by : Yoshiki Kubotani
どんな論文か?
レイアウト生成においては、Transformerベースの手法は多彩かつ高品質な生成を可能にする一方で、配置する要素を逐次的に生成するという性質から、その自由度には縛りがあった。本研究では自然言語処理界隈で用いられている双方向なアテンション機構を導入することで、この欠点を改善した。単純に手法を適用するだけでは性能が低下したため、MASKの仕方に独自のサンプリング手法を取り入れたことが大きな貢献の一つ
新規性
①BidirectionalなAttentionを導入することでnon-autoregressiveな生成を実現し、conditionalなレイアウトの生成を順序依存のなくかつ高速でできるようにした
②要素の持つ属性をいくつかのグループに分けて階層的にMASKサンプリングを行うことで、性能劣化なく上記の事項を達成した
結果
レイアウト生成でよく用いられるデータセット(RICO, PubLayNet, Magazineなど)を用いて既存の4つの手法と比較。指標には
①要素同士の重複度合い
②要素が揃えて並べられているかどうか
③要素同士の形状やサイズの類似度
④レイアウトがgoodかbadかを二値分類するモデルを訓練し、その特徴量を用いて計算したFID
の四つが採用され、Conditionalな生成でSoTAを達成
その他(なぜ通ったか?等)
Code: https://github.com/google-research/google-research/tree/master/layout-blt
- …
- …