summarized by : kubo.takahiro
Shiry Ginosar, Amir Bar, Gefen Kohavi, Caroline Chan, Andrew Owens, Jitendra Malik
音声からジェスチャーを生成する研究。モデル自体は、音声のスペクトログラムを1DのUNetにかけてPoseの予測を行うというシンプルなもの。PoseのL1誤差(予測/実際の差)だけだとあらゆるポーズの平均を学習してしまうので、生成したPoseが特定話者のものかどうか識別するDiscriminatorも使用している。
音声信号から、話者別のジェスチャーを生成するタスク・ベースライン・データセットを公開した
話者別のジェスチャー生成について、既存手法よりも良好な生成が行えた。