#142
summarized by : Shuhei M Yoshida
S3VAE: Self-Supervised Sequential VAE for Representation Disentanglement and Data Generation

どんな論文か?

動画や音声など時系列データの特徴表現を自己教師あり学習によって学習する手法を提案。特に、appearanceなど静的な特徴と動きなど動的な特徴のdisentanglementに主眼を置く。
placeholder

新規性

時系列データの特徴のdisentanglementに自己教師あり学習を用いてその有効性を示した初めての例である。 手法的には、RNN+VAEのsequential VAEをベースとするS3VAEを提案。潜在変数の一部が入力の時間順序に依存しないようにするロス関数により静的な特徴を、残りの潜在変数から映像の大きな動きを検知する補助タスクを導入することで動的な特徴を獲得する。

結果

分類や動画編集などの下流タスクにおける有用性を定性的・定量的に評価。タスクによっては教師あり学習よりも高い精度を達成。

その他(なぜ通ったか?等)

自己教師あり学習の流行りに乗ったこと、時系列特徴のdisentanglementという新しい問題設定が強み。