#621
summarized by : QIU YUE
Hierarchical Video Prediction Using Relational Layouts for Human-Object Interactions

どんな論文か?

ビデオ生成の新たな手法を提案.既存のビデオ生成手法は複雑なHuman-object Interactionをうまく表現できない問題点がある.以上の問題点を対応するために,2-stageなDisentanglementをベースとしたビデオ生成手法を提案.いくつかの既存データセットにおいてSoTAな生成性能を示した。
placeholder

新規性

ビデオ生成のHuman-object Interactionの質に着目し,新たな2-stageビデオ生成のHierarchicalな手法を提案.具体的に、まずStage1でLayoutのSequenceを予測する.そして、Stage2でStage1のLayout sequenceをstructure priorとし、Layoutsからpixel spaceのマッピングを行う.

結果

既存の2つのデータセットUMD-HOIとBimanualにおいて,LPIPS,PSNR,SSIMなどの指標においてSoTAな結果を得られた.

その他(なぜ通ったか?等)