#83
summarized by : 松葉 亮人
Video Autoencoder: Self-Supervised Disentanglement of Static 3D Structure and Motion

どんな論文か?

ビデオのオートエンコーダの論文。まずビデオを (i) 3Dシーン構造(ボクセル特徴量)(ii)カメラの3D軌跡(回転+移動)の2つ分離表現に分離して埋め込み、デコーダで再構成する。学習されたエンコーダーを用いてカメラの姿勢推定をしたり、デコーダーを用いて静止画から動画を出力したりと、学習した関数はさまざまなタスクに応用が可能。
placeholder

新規性

通常のカメラの姿勢推定や、3Dシーン構造推定の問題では、アノテーションにより正解データを与えて教師あり学習する手法が主である。提案手法は、オートエンコーダーによる教師なし学習で、これらの特徴量を得る点で新しい。

結果

カメラ姿勢推定では、自己教師ありカメラ姿勢推定4手法と、推定した奇跡のずれ(Absolute Trajectory Error )を比較し、既存手法より誤差が小さいことを示した。 1枚の画像からの動画生成(Novel View Synthesis)では、生成したフレームのPSNR、SSIM、LPIPSを比較した。教師ありも含めると負けるが、教師なしの手法の中ではSOTA。

その他(なぜ通ったか?等)

動画:https://zlai0.github.io/VideoAutoencoder/ 発表スライド:https://docs.google.com/presentation/d/1UWK3MDNMKSTmcr73G5GDMyTnpNzsBZx4/edit#slide=id.p1