論文サマリ

emnlp2019

tag: vision-and-language

LXMERT: Learning Cross-Modality Encoder Representations from Transformers

by: Yuta Nakamura

vision-and-language BERT transformer VQA GQA BUTD

Incorporating Visual Semantics into Sentence Representations within a Grounded Space

by: Shintaro Yamamoto

Language Grounding Visual Semantics Vision and Language