Multi-Domain Multi-Definition Landmark Localization for Small Datasets

#279

summarized by : 堤隆太

David Ferman; Gaurav Bharaj

どんな論文か？

VRやキャラクタフィルタアプリケーション（人や動物に効果が追加された映像）のニーズが高まっており、現実の人の顔に対しては顔のランドマーク推定は進化してきているが、上記のような新しい画像領域ではうまくいかないケースが存在している。さらに、そのような新しい画像領域はデータ数が少なく適切な学習が困難である。

新規性

アーキテクチャにはVision Transfomerを用い、またクロス・セルフアテンションを持つデコーダを設ける。大規模データセットとターゲットとする小規模データセットを同時に学習し、類似性をモデル化して共有することで小規模データセットにおいても高い推定性能を持つモデルを生成する。

結果

COFWやWELWのような小規模のデータセットで従来手法よりも高い性能を確認した。また、リアルな人の顔ではない動物や絵画のようなデータセットにおいても同様に従来手法よりも高い性能を確認した。

その他（なぜ通ったか？等）

「顔ランドマークの意味グループをモデル化して、別カテゴリに転用する」という点が新しいものと判断されたと感じた。本文では言及されていない点として、従来手法との差別化として学習時間も気になった。

このページで利用されている画像は論文から引用しています．