#48
summarized by : Shintaro Yamamoto
Learning to Learn Words from Visual Scenes

どんな論文か?

人間は未知の単語と出会うとき,視覚情報によってその単語の意味を推測することができる.画像と文章のペアから,未知語っが何であるかを学習する方法を学習(meta-learning)する.
placeholder

新規性

未知語を含む画像と文章ペアに対して,referenceとなる画像と文章ペアを複数用意する.Transformerベースのモデルに画像と単語シークエンスを入力し,未知語がreference中のどの単語に対応するかを当てる手法を提案.

結果

Flickr30kとEPIC-Kitchensの2つのデータセットで学習し,早くかつロバストに単語の意味を獲得することができるのを示した.

その他(なぜ通ったか?等)