TSIT: A Simple and Versatile Framework for Image-to-Image Translation

#66

summarized by : Teppei Kurita

Liming Jiang, Changxu Zhang, Mingyang Huang, Chunxiao Liu, Jianping Shi, Chen Change Loy

画像から画像に変換するタスクにおいて、教師あり教師なし共に統一的に扱えるシンプルなネットワークの提案。簡単に言うとpix2pixとCycleGANのような操作が同じネットワークとロス関数(Cycle-Consistency不要)で可能になるということ。しかも性能が高い。

ネットワークはソースとターゲットからそれぞれコンテンツとスタイルの特徴を抽出する2つのEncoderからなり、各解像度で抽出された特徴をそれぞれ生成器に統合していく。このときに各特徴量を用いてジェネレータでの生成物を正規化(FADE, FAdaIN)をしていくのがキモ。

Style Transferタスク、セマンティック画像合成タスクについて、定量・定性評価ともに従来手法と比較し、性能向上を確認。

ネットワークの各ブロックは非常にシンプルな残差構造であり、全体のアーキテクチャも対称性がありわかりやすい。これで本当に様々なタスクへの汎用性があり、性能も高いなら、これから色々使われていきそうだなと思った。

このページで利用されている画像は論文から引用しています．