#269
summarized by : 鈴木共生
Sparse Local Patch Transformer for Robust Face Alignment and Landmarks Inherent Relation Learning

どんな論文か?

顔パーツ検出の主流であるヒートマップを使用した手法では、各パーツごとの相対的な関連性を学習できないという問題があった.これに対して提案法であるSLPTではTransformerのattention機構をうまく顔パーツ検出に適応することでこの問題を解決,さらに計算量の削減も実現した.
placeholder

新規性

提案法の構造は画像の通り.CNNで得られる特徴量に対して,各顔パーツを中心としたパッチを作成.各パッチをSLPTに入力して,顔パーツの座標補正量を計算.この時パッチサイズを徐々に小さくしながら処理(Coarse-to-fine locating)することで,画像右下のように徐々に座標を真値に寄せることが可能になる.また,画像全体ではなくパッチを入力とすることで計算量を削減できる.

結果

WFLW,300W,COFWデータにおいて座標誤差であるNME等で評価.ヒートマップ手法よりも少ない計算量でSOTAレベルの精度を達成した.Coarse-to-fine locatingの有効性をStage数の比較評価で示した.

その他(なぜ通ったか?等)

顔パーツ検出という問題設定に対して,Transformerで推論する構造を提案したこと.また,その構造がシンプルで使いやすく,計算量が少ないこと.