#407
summarized by : Seitaro Shinagawa
TISE: Bag of Metrics for Text-to-Image Synthesis Evaluation

どんな論文か?

テキストからの画像生成の評価指標であるTISEの提案。TISEは複数の指標による混合評価指標(bag of metrics)であり、toolboxとしてコードも公開されている模様。単一物体生成と複数物体生成で動作する強いベースラインとして、AttnGANにspectral normalizationを加えたAttnGAN++を提案。
placeholder

新規性

現行の評価指標として使われるInception Score (IS)は単一物体に対してcalibrationができておらず、多物体には間違って利用されている点、R-precision (RP) と Semantic Object Accuracy (SOA)が過学習している点、多物体に対して忠実度や位置、数の評価が不十分な点に着目して、これらの問題を解決しつつ、これらの混合指標を提案した点が新規。

結果

TISEをランキング指標として利用した場合、人間の評価とも一貫したスコアを出すことができる。また、主にGANベースのtext-to-image手法との比較においてAttnGAN++の有効性を確認した。DALL-E-miniとも比較しているが、zero-shotでの比較のためフェアではない。

その他(なぜ通ったか?等)

https://github.com/VinAIResearch/tise-toolbox