summarized by : Shintaro Yamamoto
Incorporating Visual Semantics into Sentence Representations within a Grounded Space

概要

画像情報を用いて文章の表現を獲得する文章のgroundingでは,文章の特徴表現が画像から獲得されたものと一致するように学習する.しかし,2つのモダリティの空間は必ずしも一致するとは限らない.そこで,画像の特徴表現を部分的に利用して文章の表現を獲得する手法を提案する.
placeholder

新規性

Cluster informationとPerceptual informationの2つに関するロスを設計することで画像の特徴空間に関する情報を文章表現に転写する.Cluster informationは,同じ画像と対応付けられている文章同士は同じ内容を表現しているとし,距離が近くなるように最適化する.Perceptual informationは,画像空間での2つの画像の類似度が対応する文章同士の類似度との相関が高くなるよう最適化する.

結果

Semantic relatedness, classification, structural measuresの3つのタスクで実験をし,従来手法よりも精度向上を実現した.