#344
summarized by : Hirokatsu Kataoka
CookGAN: Causality Based Text-to-Image Synthesis

どんな論文か?

料理画像においてText(Recipe)-to-Imageを実行する。テキストと画像の因果関係を生成モデルに組み込んだCookGANを提案。料理中の映像や写真などは不要、テキストのみで料理画像を再現する。
placeholder

新規性

CookGANは他のGANとは異なり、料理に特化したGANであることを主張。料理中の手順(Instruction)や材料(Ingredients)を入力することで因果関係を推論し、料理画像を生成可能である。詳細なネットワーク構造は図中に示す。

結果

Recipe1Mを使用し、Text-to-Imageを検証した。StackGAN++と比較すると、Inception Score(高いほど良い)にてCookGAN 5.41 vs. 5.03。また、材料のみ(IngredientGAN)で4.79、レシピのみ(StepGAN)で5.30であった。

その他(なぜ通ったか?等)