Hierarchical Video Prediction Using Relational Layouts for Human-Object Interactions

#621

summarized by : QIU YUE

Navaneeth Bodla, Gaurav Shrivastava, Rama Chellappa, Abhinav Shrivastava

どんな論文か？

ビデオ生成の新たな手法を提案．既存のビデオ生成手法は複雑なHuman-object Interactionをうまく表現できない問題点がある．以上の問題点を対応するために，2-stageなDisentanglementをベースとしたビデオ生成手法を提案．いくつかの既存データセットにおいてSoTAな生成性能を示した。

新規性

ビデオ生成のHuman-object Interactionの質に着目し，新たな2-stageビデオ生成のHierarchicalな手法を提案．具体的に、まずStage1でLayoutのSequenceを予測する．そして、Stage2でStage1のLayout sequenceをstructure priorとし、Layoutsからpixel spaceのマッピングを行う．

結果

既存の2つのデータセットUMD-HOIとBimanualにおいて，LPIPS，PSNR，SSIMなどの指標においてSoTAな結果を得られた．

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．