- …
- …
#82 #acl2020
summarized by : sobamchan
概要
VisualBERT とかの,視覚的に grouding された BERT 系モデルが何を pre-training で学習しているかは明らかでない.
multi-modal な attention heads の可視化 / 分析を行うことで,attention heads の中に,language を 画像中の region に関連付けているものがあることを示した.
新規性
単一モーダル (テキスト) BERT の attention heads の分析研究は存在したが,最近盛り上がっている multi-modal BERT (eg, VisualBERT) の分析はされていなかった.
結果
text - visual 間の entity grounding (テキスト中の単語と画像中のオブジェクトの関連づけ) や syntactic grounding (動詞と目的語の関係づけ) をしている,attention heads があることを示した.
- …
- …