Learning to Learn Words from Visual Scenes

#48

summarized by : Shintaro Yamamoto

Dídac Surís, Dave Epstein, Heng Ji, Shih-Fu Chang, Carl Vondrick

人間は未知の単語と出会うとき，視覚情報によってその単語の意味を推測することができる．画像と文章のペアから，未知語っが何であるかを学習する方法を学習(meta-learning)する．

未知語を含む画像と文章ペアに対して，referenceとなる画像と文章ペアを複数用意する．Transformerベースのモデルに画像と単語シークエンスを入力し，未知語がreference中のどの単語に対応するかを当てる手法を提案．

Flickr30kとEPIC-Kitchensの2つのデータセットで学習し，早くかつロバストに単語の意味を獲得することができるのを示した．

このページで利用されている画像は論文から引用しています．