Deep Multimodal Clustering for Unsupervised Audiovisual Learning

#108

summarized by : Takuma Yagi

Di Hu, Feiping Nie, Xuelong Li

クラスタリングに基づく画像と音響の教師なし特徴学習手法を提案。

従来別々に扱われてきた音源位置推定と音源分離を同時に自然に学習できる枠組みの提案。K-means法を微分可能にしたmultimodal clusteringを提案。

画像・音響分類、単音音源位置推定および複数音源におけるsount event detectionにおいて単一のフレームワークで高精度を達成。

手法自体は目新しくないがシンプルかつ実験がしっかりしており実用度が高い。

このページで利用されている画像は論文から引用しています．