Self-Supervised Learning of Interpretable Keypoints From Unlabelled Videos

#386

summarized by : Hiroaki Aizawa

Tomas Jakab, Ankush Gupta, Hakan Bilen, Andrea Vedaldi

どんな論文か？

unlabelled videoとlandmarkの事前知識から，人間が解釈可能なlandmarkを予測するdetectorをself-supervised learningする方法を提案．この方法は，異なるフレームから，poseを条件としたim2im変換を行い，その生成結果との再構成誤差とpose表現の敵対的誤差から学習を行う．

新規性

unlabelled videoでかつunpaired pose labelからself-supervised learningするために，unalignedなposeに対するdiscriminatorと，外観とposeを分離するためのbottleneck表現の設計が技術的に新しい．これらの提案は，異なるデータセットやモダリティでも利用することができることもポイント．

結果

身体，顔，猫の異なるカテゴリで検証し，特にunlabelled データのみから学習した提案手法のpose認識の性能が，Human3.6M, 300-WでSOTAを達成．また，MPI-INF-3DHPからのモーキャプデータをposeのpriorとして利用し，Human3.6Mでlandmrk検出器を学習するようなcross-datasetなシナリオでも有効性を実証している．

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．