#476
summarized by : hiroki tsujimoto
Unsupervised Representation Learning for Gaze Estimation

どんな論文か?

視線推定に取り組んだ研究.既存の視線推定タスクには,1.ベンチマークのデータセットの規模が小さい.2.アノテーションが不正確.3.データセットのバイアス.といった課題があると指摘.これらの解決策として,教師なし視線推定手法を提案した.視線表現の推定と視線変換を同時に学習可能な手法である.
placeholder

新規性

1.低次元の視線表現を教師なしで学習するgaze redirection networkを初めて提案した.2.過学習を防ぎ,物理的に意味のある表現を学習させるwarping field regularizationを提案した.3.視線方向の推定だけでなく顔の向きを推定するタスクにも適用可能

結果

実験では3つの公開データセット(Eyediap,Columbia Gaze,UTMultiview)を用いた.図のように正確な視線変換を実現.視線表現が実際の(pitch, yaw)に対して,比例の関係にあることを示した.教師ありの視線推定タスクにおいて,提案手法を事前学習に用いると,既存手法と同程度の性能となった.顔の向きを推定するタスクにおいては,十分な回転表現が得られなかった.

その他(なぜ通ったか?等)

2枚の画像(input, output)からそれぞれの視線表現(yaw,pitch)を推定し,output画像に近づくようにinput画像を視線変換する.pitchとyawが物理的に意味のある(disentanglementな)表現となるように,正則化項を導入した.視線推定以外のタスクにも適用可能であり,貢献が大きいと考えられる.