#363
summarized by : QIUYUE
Learning Program Representations for Food Images and Cooking Recipes

どんな論文か?

既存のhow-to研究(画像から、レシピー生成など)が画像とテキスト全体のAlignmentを行う方が多かった。ここで、レシピーをStep-by-stepプログラム(グラフ)で表現すること及び新たなプログラム付きデータセットを提案。実験で画像、テキストをProgramの形式でEmbeddingすることで良いクロスモーダルRetrievalやレシピー予測、画像生成を行える結果を示した。
placeholder

新規性

まず、RecipeをRecipe ProgramでRepresentすることを新たに提案した。Recipeのみならず、他のHow-to系の研究でも類似したProgramアノテーションで性能を向上可能な傾向もこの研究により示された。また、Recipe Programつきの新たな大規模Image、Recipe、Programから構成されるデータセットを提案。

結果

提案のレシピープログラムの形式で、画像/レシピーをEmbeddingすると、Cross-modal Retrievalの性能を向上できた(Programを経由せずな場合と比較)。また、画像からProgramを生成し、その後にレシピーを生成することで、レシピー生成の精度も向上させた。更に、ProgramをLatent Codeでいじることで、Programに従った画像を生成できる結果も示せた。

その他(なぜ通ったか?等)

画像やテキストからstep-by-step知識の抽出の研究があまりなかったので、面白い。論文中に、Programから画像生成の実験も行っていて、類似する研究をする際に参考になれそう。Unsupervised /Weak-supervisedでProgramを生成できるとなおさら良い。