#386
summarized by : Hiroaki Aizawa
Self-Supervised Learning of Interpretable Keypoints From Unlabelled Videos

どんな論文か?

unlabelled videoとlandmarkの事前知識から,人間が解釈可能なlandmarkを予測するdetectorをself-supervised learningする方法を提案.この方法は,異なるフレームから,poseを条件としたim2im変換を行い,その生成結果との再構成誤差とpose表現の敵対的誤差から学習を行う.
placeholder

新規性

unlabelled videoでかつunpaired pose labelからself-supervised learningするために,unalignedなposeに対するdiscriminatorと,外観とposeを分離するためのbottleneck表現の設計が技術的に新しい.これらの提案は,異なるデータセットやモダリティでも利用することができることもポイント.

結果

身体,顔,猫の異なるカテゴリで検証し,特にunlabelled データのみから学習した提案手法のpose認識の性能が,Human3.6M, 300-WでSOTAを達成.また,MPI-INF-3DHPからのモーキャプデータをposeのpriorとして利用し,Human3.6Mでlandmrk検出器を学習するようなcross-datasetなシナリオでも有効性を実証している.

その他(なぜ通ったか?等)