- …
- …
#21
summarized by : yasud
新規性
既存研究では画像の操作が難しく、さらに「human-walks-dog」のtripletにおいては道の上を歩いてるはず、のような暗黙的な関係を表現できず、多様なレイアウトを生成できない課題をTransformerの仕組みを使って言語の形式で学習することで実現ができた
結果
COCO-StuffとVisualGenomeで評価。定量評価の指標には真のBboxとのmIOU、relationの正解率、FID、LPIPS metricを使った多様性スコアを利用し、FID以外でSoTA(FIDが一番いいモデルはその他の指標で少し落ちている)
その他(なぜ通ったか?等)
T2Iのモデルは基本的に出力される画像が歪んでいたりするが、それが少し解消されたようなイメージがした。
- …
- …