Learning Individual Styles of Conversational Gesture

#464

summarized by : kubo.takahiro

Shiry Ginosar, Amir Bar, Gefen Kohavi, Caroline Chan, Andrew Owens, Jitendra Malik

どんな論文か？

音声からジェスチャーを生成する研究。モデル自体は、音声のスペクトログラムを1DのUNetにかけてPoseの予測を行うというシンプルなもの。PoseのL1誤差(予測/実際の差)だけだとあらゆるポーズの平均を学習してしまうので、生成したPoseが特定話者のものかどうか識別するDiscriminatorも使用している。

新規性

音声信号から、話者別のジェスチャーを生成するタスク・ベースライン・データセットを公開した

結果

話者別のジェスチャー生成について、既存手法よりも良好な生成が行えた。

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．