Are Multimodal Transformers Robust to Missing Modality?

#462

summarized by : QIUYUE

Mengmeng Ma; Jian Ren; Long Zhao; Davide Testuggine; Xi Peng

どんな論文か？

実世界でのマルチモーダルデータではMissing-modalities現象が良くある。しかしながら、現状のモデルが上記に対しての検討は不足していた。ここで、VandLのTransformer構造がMissing-modalitiesに対してのロバスト性検討をし、既存手法での実験分析を行った上、データセットによりCross-modalitiesのFusionするタイミングが性能につながる結論を発見。

新規性

まず、VandLにおけるMissing-modalitiesに対してのモデルロバスト性の検討が従来あまりなかった。ここで、上記の内容を様々な既存のTransformerベースな手法で実験と分析を行った。また、実験結果により、データセットごとにマルチモーダルのFusionするタイミングを調整することで、性能向上できる知見を発見した。

結果

既存のTransformer構造がMissing-modalitiesに対して性能が著しく劣ることを実験により示された。また、提案の、自動的にマルチモーダルのFusionのタイミングを決める手法を用いることで、有効的にMissing-modalitiesに対してのロバスト性向上を実現できた。

その他（なぜ通ったか？等）

タスクごとやデータセットごとにLate-FusionかEarly Fusionかが、性能に大きな影響があることは面白い。また、上記の原因に関しての検討が興味深そう。

このページで利用されている画像は論文から引用しています．