#293
summarized by : 鈴木共生
General Facial Representation Learning in a Visual-Linguistic Manner

どんな論文か?

顔分析タスク全般に向けた,顔画像とテキストによって顔の普遍特徴を事前学習するモデルを提案.この時,顔分析ではImageNetの画像分類タスクのように事前学習向けのデータセットがないという問題がある.論文ではこの問題を解決するために新たなデータセットも作成した.
placeholder

新規性

LAIONという画像とテキストのペアデータセットに対して顔検出処理を行い,顔とテキストのペアデータセットであるLAION-FACEデータセットも作成した.このデータを用いて、画像のようなモデルを提案.まず,画像左側のようにテキストと画像の特徴を近づける対象学習を行う.その後、画像右側のように一部マスクした顔を入力としてマスク箇所を予測する学習をしている.

結果

顔セグメンテーション・顔パーツ検出・顔属性分類の3タスクにおいてSOTA手法と比較.顔セグメンテーションデータ(LaPa,CelebAMask-HQ)と顔パーツ検出データ(AFLW-19,300W,WFLW)においてSOTAを超える精度を達成した.顔属性分類においてもSOTAに近い精度を達成した.

その他(なぜ通ったか?等)

事前学習を顔分析タスク向けに適用するためのデータセットとモデルのベースラインを提案していること.顔検出や顔認証など他のタスクの事前学習にも活用できる可能性があるため.