summarized by : Keito Ishihara
Peng Gao, Zhengkai Jiang, Haoxuan You, Pan Lu, Steven C. H. Hoi, Xiaogang Wang, Hongsheng Li
VQAにおける画像と言語のマルチモーダル特徴の融合のためのattention-flowを提案。
モーダル内でのself-attentionのようなInter-modality Attention Flowと、モーダル間のsource-target attentionのような Dynamic IntraModality Attention Flow moduleを提案。これらの組み合わせによりテキストと画像の特徴の融合を実現した。
VQA 2.0 datasetで実験しSOTA。モジュールのAblation studyも行った。