#462
summarized by : QIUYUE
Are Multimodal Transformers Robust to Missing Modality?

どんな論文か?

実世界でのマルチモーダルデータではMissing-modalities現象が良くある。しかしながら、現状のモデルが上記に対しての検討は不足していた。ここで、VandLのTransformer構造がMissing-modalitiesに対してのロバスト性検討をし、既存手法での実験分析を行った上、データセットによりCross-modalitiesのFusionするタイミングが性能につながる結論を発見。
placeholder

新規性

まず、VandLにおけるMissing-modalitiesに対してのモデルロバスト性の検討が従来あまりなかった。ここで、上記の内容を様々な既存のTransformerベースな手法で実験と分析を行った。また、実験結果により、データセットごとにマルチモーダルのFusionするタイミングを調整することで、性能向上できる知見を発見した。

結果

既存のTransformer構造がMissing-modalitiesに対して性能が著しく劣ることを実験により示された。また、提案の、自動的にマルチモーダルのFusionのタイミングを決める手法を用いることで、有効的にMissing-modalitiesに対してのロバスト性向上を実現できた。

その他(なぜ通ったか?等)

タスクごとやデータセットごとにLate-FusionかEarly Fusionかが、性能に大きな影響があることは面白い。また、上記の原因に関しての検討が興味深そう。