- …
- …
#186
summarized by : Shion Honda
どんな論文か?
6秒間の音声から発話者の顔を推定する課題「Speech2Face」を提案し、YouTubeの動画から自己教師学習でネットワークを学習させた。音声はスペクトログラムに変換してからCNNで4096次元の顔特徴ベクトルにエンコードする。画像のエンコーダ/デコーダは先行研究のものを使用する。画像エンコーダの出力を教師として損失の計算に利用し、デコーダで顔を復元する(学習させるのは音声エンコーダのみ)。
新規性
音声から特定の属性だけを推定するタスクはこれまでにもあったが、それらの属性を総合する「顔」を復元するタスクはこの論文で初めて提唱された。
これは下流タスクとして性別推定などにも使えるし、voice -> face retrievalのようなタスクにも使える。また、顔をアニメ風に変換することで、顔を出さないビデオ通話のような応用先も考えられる。
結果
不良設定問題なので顔そのものを復元するのは不可能だが、性別・年齢・人種のような属性は推定できた。顔の候補が複数あるときに、音声と顔を結びつけるような操作は高精度にできた。
その他(なぜ通ったか?等)
手法としての新規性は薄いが、タスク自体の新しさや実験の細かさが評価されたのだと思います。8ページの中にFig 12、Table 3まであります!
- …
- …