summarized by : sobamchan
What Does BERT with Vision Look At?

概要

VisualBERT とかの,視覚的に grouding された BERT 系モデルが何を pre-training で学習しているかは明らかでない. multi-modal な attention heads の可視化 / 分析を行うことで,attention heads の中に,language を 画像中の region に関連付けているものがあることを示した.
placeholder

新規性

単一モーダル (テキスト) BERT の attention heads の分析研究は存在したが,最近盛り上がっている multi-modal BERT (eg, VisualBERT) の分析はされていなかった.

結果

text - visual 間の entity grounding (テキスト中の単語と画像中のオブジェクトの関連づけ) や syntactic grounding (動詞と目的語の関係づけ) をしている,attention heads があることを示した.