#584
summarized by : Yue Qiu
MCEN: Bridging Cross-Modal Gap between Cooking Recipes and Dish Images with Latent Variable Model

どんな論文か?

料理画像とレシピテキストのCross-modal retrieval手法を提案.既存手法は画像とレシピそれぞれ独立のモデルから特徴を抽出してからマッチングを行う.提案手法ではModality-Consistent Embedding Networkにより画像とレシピを同じembedding空間に射影.また,Stochastic latent variablesにより画像とテキスト間の関係を探索.
placeholder

新規性

①料理画像とレシピテキストのMatchingのための新たなModality-consistent embeddingの提案.従来手法より料理画像とレシピ間の関連性の学習能力を向上;②階層化Attentionを用いたレシピテキストエンコーダーを導入し,画像とのMatchingを改善する同時に,学習とテストを加速した.

結果

Recipe1M datasetでSOTAなImage -> RecipeとRecipe-> ImageのRetrieval精度を得られた.また,既存手法より計算時間が短い.

その他(なぜ通ったか?等)

モデルがSimpleと同時に高い精度、良いRuntimeを実現.