What Does BERT with Vision Look At?

#82 #acl2020

summarized by : sobamchan

Liunian Harold Li, Mark Yatskar, Da Yin, Cho-Jui Hsieh, Kai-Wei Chang

概要

VisualBERT とかの，視覚的に grouding された BERT 系モデルが何を pre-training で学習しているかは明らかでない． multi-modal な attention heads の可視化 / 分析を行うことで，attention heads の中に，language を画像中の region に関連付けているものがあることを示した．

新規性

単一モーダル (テキスト) BERT の attention heads の分析研究は存在したが，最近盛り上がっている multi-modal BERT (eg, VisualBERT) の分析はされていなかった．

結果

text - visual 間の entity grounding (テキスト中の単語と画像中のオブジェクトの関連づけ) や syntactic grounding (動詞と目的語の関係づけ) をしている，attention heads があることを示した．

このページで利用されている画像は論文から引用しています．