Text2LIVE: Text-Driven Layered Image and Video Editing

#122

summarized by : 加藤義道

Omer Bar-Tal; Dolev Ofri-Amar; Rafail Fridman; Yoni Kasten; Tali Dekel

どんな論文か？

テキストガイドによる画像編集の研究. 自然画像を用いた生成器の事前訓練がない状態での編集という新しい問題設定を考えている. 提案手法では, 入力画像をデータ拡張したものを用いて生成器を訓練. 入力画像と合成するための編集効果をRGBA画像として出力することで, オブジェクトに対して局所的かつ意味的な編集を実現. さらに, 動画にも適用できるように手法を拡張し有効性を実証.

新規性

編集効果をRGBA画像のレイヤーとして出力し入力画像に合成することで, 高い忠実度を維持している点. また, 単一の入力に対して生成器を学習させる内部学習の有効性を実証しており, 動画にも拡張している点.

結果

GLIDE, Blended-Diffusion, CLIPStyler, Diffusion+CLIP, VQGAN+CLIPなどの手法と比較. 提案手法は, 背景や画像の構造を変えずに指定したオブジェクトのみを編集できている. しかし, "birthday cake"でロウソクが現れるといった, 新たなオブジェクトが追加されるようなテキストには対応できない.

その他（なぜ通ったか？等）

コード: https://github.com/omerbt/Text2LIVE 補足資料: https://text2live.github.io/sm/index.html

このページで利用されている画像は論文から引用しています．