- …
- …
#279
summarized by : 堤隆太
どんな論文か?
VRやキャラクタフィルタアプリケーション(人や動物に効果が追加された映像)のニーズが高まっており、現実の人の顔に対しては顔のランドマーク推定は進化してきているが、上記のような新しい画像領域ではうまくいかないケースが存在している。さらに、そのような新しい画像領域はデータ数が少なく適切な学習が困難である。
新規性
アーキテクチャにはVision Transfomerを用い、またクロス・セルフアテンションを持つデコーダを設ける。大規模データセットとターゲットとする小規模データセットを同時に学習し、類似性をモデル化して共有することで小規模データセットにおいても高い推定性能を持つモデルを生成する。
結果
COFWやWELWのような小規模のデータセットで従来手法よりも高い性能を確認した。また、リアルな人の顔ではない動物や絵画のようなデータセットにおいても同様に従来手法よりも高い性能を確認した。
その他(なぜ通ったか?等)
「顔ランドマークの意味グループをモデル化して、別カテゴリに転用する」という点が新しいものと判断されたと感じた。本文では言及されていない点として、従来手法との差別化として学習時間も気になった。
- …
- …