Temporally Consistent Semantic Video Editing

#55

summarized by : 角田良太朗

Yiran Xu; Badour AlBahar; Jia-Bin Huang

どんな論文か？

StyleGANの画像編集をビデオに適用。既存手法は後処理ないしUVマップの編集で画素値レベルで直接temporal-consistencyを担保しているが、本論文ではStyleGANのlatent codeおよびgeneratorの重みを調整することでこれを達成する。

新規性

各フレームでGAN inversonによりスタイル編集を独立にかけた後、中央フレームと他フレームの差分を次の手順で解消：まずoptical-flowで対応画素の特定＆LPIPSを見て編集箇所を同定し、そこの画素値が一致するようLPIPSをロスにlatent codeのみをMLP新規学習で残差を上乗せする形で更新。最後にgeneratorをfinetuneして編集箇所外の変化を抑制。

結果

RAVDESSデータセットおよびネット上の動画に対して検証。LPIPSおよびWarpingErrorをメトリックとして既存手法と比較し、LPIPSを比較的保ったままtemporal-consistencyを定性的に達成できている。

その他（なぜ通ったか？等）

LPIPSを重視するのは、temporal-consistencyを達成するには結果をぼやけさせるのが簡単だからと論文中に記載があり、なるほどと思うなど。 https://video-edit-gan.github.io/

このページで利用されている画像は論文から引用しています．