summarized by : Shintaro Yamamoto
Integrating Multimodal Information in Large Pretrained Transformers

概要

BERTやXLNetなどのTransformerベースのモデルは、事前学習に言語情報のみを用いている。事前学習済みモデルに、画像や音などの他のモダリティを挿入するための手法を提案。
placeholder

新規性

Transformerの中間出力に対して、画像や音の情報を挿入するMultimodal Adaptation Gate(MAG)を提案。言語、音、画像を入力として、言語の特徴ベクトルに変位をもたらすベクトルを求める。

結果

Multimodal sentiment analysisを対象に実験を行い、従来手法と比べ精度向上に成功。Transformerのどの層にMAGを加えるのが良いか検証し、浅い層の方が有効であると分かった。