#464
summarized by : kubo.takahiro
Learning Individual Styles of Conversational Gesture

どんな論文か?

音声からジェスチャーを生成する研究。モデル自体は、音声のスペクトログラムを1DのUNetにかけてPoseの予測を行うというシンプルなもの。PoseのL1誤差(予測/実際の差)だけだとあらゆるポーズの平均を学習してしまうので、生成したPoseが特定話者のものかどうか識別するDiscriminatorも使用している。
placeholder

新規性

音声信号から、話者別のジェスチャーを生成するタスク・ベースライン・データセットを公開した

結果

話者別のジェスチャー生成について、既存手法よりも良好な生成が行えた。

その他(なぜ通ったか?等)