Sparse Local Patch Transformer for Robust Face Alignment and Landmarks Inherent Relation Learning

#269

summarized by : 鈴木共生

Jiahao Xia; Weiwei Qu; Wenjian Huang; Jianguo Zhang; Xi Wang; Min Xu

どんな論文か？

顔パーツ検出の主流であるヒートマップを使用した手法では、各パーツごとの相対的な関連性を学習できないという問題があった．これに対して提案法であるSLPTではTransformerのattention機構をうまく顔パーツ検出に適応することでこの問題を解決，さらに計算量の削減も実現した．

新規性

提案法の構造は画像の通り．CNNで得られる特徴量に対して，各顔パーツを中心としたパッチを作成．各パッチをSLPTに入力して，顔パーツの座標補正量を計算．この時パッチサイズを徐々に小さくしながら処理(Coarse-to-fine locating)することで，画像右下のように徐々に座標を真値に寄せることが可能になる．また，画像全体ではなくパッチを入力とすることで計算量を削減できる．

結果

WFLW，300W，COFWデータにおいて座標誤差であるNME等で評価．ヒートマップ手法よりも少ない計算量でSOTAレベルの精度を達成した．Coarse-to-fine locatingの有効性をStage数の比較評価で示した．

その他（なぜ通ったか？等）

顔パーツ検出という問題設定に対して，Transformerで推論する構造を提案したこと．また，その構造がシンプルで使いやすく，計算量が少ないこと．

このページで利用されている画像は論文から引用しています．