summarized by : Tosho Hirasawa
Missing Modality Imagination Network for Emotion Recognition with Uncertain Missing Modalities

概要

欠落したモダリティが不確定な状況下で動作するマルチモーダル感情認識モデルを提案した。複数層のオートエンコーダに cycle learning を組み合わせたモデルを訓練することで、不確定なモダリティの欠落に堅牢なマルチモーダル分散表現を獲得することができ、モダリティに欠落がある場合とない場合の両方で性能の向上を確認した。
placeholder

新規性

提案手法では、複数のオートエンコーダから成る Cascade Residual Autoencoder (CRA) を用いることで、モダリティが欠損していても分散表現を堅牢に学習できる。また、Cycle Consistency Learning を用いて、入力から欠損したモダリティの分散表現、および、更に別の CRA を通して入力の分散表現を予測するように学習する。

結果

2つのベンチマークで、モダリティに欠落がある場合とない場合の両方で性能の向上を確認した。Ablation の結果、Cycle Consistency Learning を用いることで大きな改善が得られることがわかった。また、学習されたモデルは複数のモダリティを用いた場合に最も性能が良いことが示されている。