#108
summarized by : Takuma Yagi
Deep Multimodal Clustering for Unsupervised Audiovisual Learning

どんな論文か?

クラスタリングに基づく画像と音響の教師なし特徴学習手法を提案。
placeholder

新規性

従来別々に扱われてきた音源位置推定と音源分離を同時に自然に学習できる枠組みの提案。K-means法を微分可能にしたmultimodal clusteringを提案。

結果

画像・音響分類、単音音源位置推定および複数音源におけるsount event detectionにおいて単一のフレームワークで高精度を達成。

その他(なぜ通ったか?等)

手法自体は目新しくないがシンプルかつ実験がしっかりしており実用度が高い。