- …
- …
#48
summarized by : Shintaro Yamamoto
新規性
未知語を含む画像と文章ペアに対して,referenceとなる画像と文章ペアを複数用意する.Transformerベースのモデルに画像と単語シークエンスを入力し,未知語がreference中のどの単語に対応するかを当てる手法を提案.
結果
Flickr30kとEPIC-Kitchensの2つのデータセットで学習し,早くかつロバストに単語の意味を獲得することができるのを示した.
その他(なぜ通ったか?等)
- …
- …