#51
summarized by : Yusuke Machii
MMTM: Multimodal Transfer Module for CNN Fusion

どんな論文か?

現在、多くのマルチモーダルモデルでは、モダリティ毎に特徴量を抽出した後、fusionするのが主流である。本論文では、既存手法のネットワーク構成を大きく変更することなく、各モダリティのCNNの中間層における特徴量を用いたfusionを行うことを可能とするMultimodal Transfer Module (MMTM)モジュールを提案している。
placeholder

新規性

中間層におけるFusion手法には、ネットワーク構成を変える必要があり、事前学習モデルが使えない、各モダリティの特徴量の次元数が異なるとfusionできないという課題が存在。 MMTMは各モダリティの中間特徴量をチャネル毎に圧縮し結合するため、次元数の制約を受けない。またSEモジュールのように、元のCNNの着目すべきチャネルを特徴マップで指定する手法のため、ネットワーク構成を大きく変えなくてよい。

結果

MMTMモジュールを既存手法に組み込むことで、dynamic hand gesture recognition, speech enhancement, action recognitionタスクにおいて、SOTA、もしくはそれに匹敵する性能が得られることを示した。

その他(なぜ通ったか?等)