Towards Accurate Facial Landmark Detection via Cascaded Transformers

#585

summarized by : 鈴木共生

Hui Li; Zidong Guo; Seon-Min Rhee; Seungju Han; Jae-Joon Han

どんな論文か？

顔パーツ検出の論文．従来の顔パーツ検出において，座標を直接予測するモデルでは全結合層で空間情報が失われていることにより，ヒートマップ予測よりも精度が低かった．論文ではattention機構を導入することでこの問題を解決した．

新規性

提案法のネットワーク構造は画像のとおり．エンコーダーの各層の中間出力・最終出力をデコーダーに入力する．デコーダーではattention機構により顔パーツの関連性を学習することができる．また，デコーダーにカスケード構造を使用することで，徐々に顔パーツ座標を真値に近づけられるようになり，精度が向上した．

結果

顔パーツ検出データセット(300W, COFW, AFLW, WFLW-Full)においてNMEとFRで評価してSOTAを達成した．また，エンコーダー側にはResNet-18など軽量なモデルを使用しても精度に影響が少なく，小さなFLOPsで高精度を実現できることも示した．

その他（なぜ通ったか？等）

従来の顔パーツ検出では精度の問題からヒートマップ手法が用いられていた．提案法では精度面で劣っていた座標予測手法の問題を指摘したうえで，この問題をattention機構やカスケード構造を用いることで解決し，SOTAを達成しているため．

このページで利用されている画像は論文から引用しています．